論文の概要: Mind the Metrics: Patterns for Telemetry-Aware In-IDE AI Application Development using the Model Context Protocol (MCP)
- arxiv url: http://arxiv.org/abs/2506.11019v1
- Date: Wed, 14 May 2025 17:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.476861
- Title: Mind the Metrics: Patterns for Telemetry-Aware In-IDE AI Application Development using the Model Context Protocol (MCP)
- Title(参考訳): Mind the Metrics: Model Context Protocol(MCP)を用いたテレメトリ対応IDE内AIアプリケーション開発のためのパターン
- Authors: Vincent Koc, Jacques Verre, Douglas Blank, Abigail Morgan,
- Abstract要約: 本稿では,モデルコンテキストプロトコル(MCP)によって実現された遠隔計測対応統合開発環境(IDE)を紹介する。
本稿では、テレメトリを用いた行動適応のためのローカルプロンプト、CIベースの最適化、自律エージェントの設計パターンを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI development environments are evolving into observability first platforms that integrate real time telemetry, prompt traces, and evaluation feedback into the developer workflow. This paper introduces telemetry aware integrated development environments (IDEs) enabled by the Model Context Protocol (MCP), a system that connects IDEs with prompt metrics, trace logs, and versioned control for real time refinement. We present design patterns for local prompt iteration, CI based optimization, and autonomous agents that adapt behavior using telemetry. Rather than focusing on a single algorithm, we describe an architecture that supports integration with frameworks like DSPy, PromptWizard, and Prompts as Programs. We demonstrate this through Opik, an open source MCP server for LLM telemetry, and position our approach within the emerging LLMOps ecosystem. This work lays a foundation for future research on prompt optimization, IDE agent tooling, and empirical benchmarking in telemetry rich AI development workflows.
- Abstract(参考訳): AI開発環境は、リアルタイムテレメトリ、プロンプトトレース、評価フィードバックを開発者ワークフローに統合する、可観測性の最初のプラットフォームに進化している。
本稿では,モデルコンテキストプロトコル(MCP)によって実現された遠隔計測対応統合開発環境(IDE)について紹介する。
本稿では、テレメトリを用いた動作適応のためのローカルプロンプトイテレーション、CIベースの最適化、自律エージェントの設計パターンを提案する。
単一のアルゴリズムではなく、DSPy、PromptWizard、Prompts as Programsといったフレームワークとの統合をサポートするアーキテクチャについて説明する。
我々は、LLMテレメトリのためのオープンソースのMPPサーバであるOpikを通じてこれを実証し、新興のLLMOpsエコシステムに私たちのアプローチを配置する。
この研究は、テレメトリリッチAI開発ワークフローにおける、迅速な最適化、IDEエージェントツール、実証的なベンチマークに関する将来の研究の基盤となる。
関連論文リスト
- PymooLab: An Open-Source Visual Analytics Framework for Multi-Objective Optimization using LLM-Based Code Generation and MCDM [0.0]
PymooLabは、textitpymoo上に構築されたオープンソースのビジュアル分析環境である。
単一の再現可能なワークフローで構成、実行監視、正式な決定サポートを統合する。
計算集約的な研究のために、PymooLab は JAX を通したネイティブなテキストピモオ加速経路に依存している。
論文 参考訳(メタデータ) (2026-03-02T00:56:32Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - SmartMLOps Studio: Design of an LLM-Integrated IDE with Automated MLOps Pipelines for Model Development and Monitoring [0.3823356975862005]
従来の統合開発環境(IDE)は、主にコードに焦点を当てており、完全な機械学習ライフサイクルに対するインテリジェントなサポートを欠いている。
本研究では,MLOpsパイプラインを自動化したLLM統合IDEの設計を提案する。
バックエンドには、自動データ検証、機能ストレージ、ドリフト検出、リトレーニングトリガ、CI/CDデプロイメントオーケストレーションが含まれている。
実験の結果、SmartMLOps Studioはパイプライン構成時間を61%削減し、実験を45%改善し、従来のものに比べてドリフト検出精度を14%向上した。
論文 参考訳(メタデータ) (2025-11-03T18:56:59Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文 参考訳(メタデータ) (2025-08-06T14:33:45Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications [57.38526350775472]
このチュートリアルは、大規模人工知能モデル(LAM)とエージェントAI技術の原則、設計、応用に関する体系的な紹介を提供する。
我々は,6G通信の背景を概説し,LAMからエージェントAIへの技術的進化を概説し,チュートリアルのモチベーションと主な貢献を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T12:54:07Z) - Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.36868085124383626]
レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文 参考訳(メタデータ) (2025-05-26T03:00:21Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - Multi-Agent Systems Powered by Large Language Models: Applications in Swarm Intelligence [0.8602553195689513]
本研究では,大規模言語モデル(LLM)のマルチエージェントシミュレーションへの統合を,エージェントのハードコードプログラムをLLM駆動のプロンプトに置き換えることにより検討する。
提案手法は群集知能の分野での複雑なシステムの2つの例(アリコロニー採餌と鳥の群れ)の文脈で実証されている。
論文 参考訳(メタデータ) (2025-03-05T17:13:27Z) - LLM-Generated Microservice Implementations from RESTful API Definitions [3.740584607001637]
本稿では,Large Language Models (LLMs) を用いて,APIファーストのソフトウェア開発を自動化するシステムを提案する。
システムはOpenAPI仕様を生成し、そこからサーバコードを生成し、実行ログとエラーメッセージを分析するフィードバックループを通じてコードを精査する。
このシステムは、ソフトウェア開発サイクルをスピードアップする上で、ソフトウェア開発者、アーキテクト、組織に利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2025-02-13T20:50:33Z) - Think-on-Process: Dynamic Process Generation for Collaborative Development of Multi-Agent System [13.65717444483291]
ToP (Think-on-Process) はソフトウェア開発のための動的プロセス生成フレームワークである。
本フレームワークはGPT-3.5とGPT-4の動的プロセス生成能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-10T15:02:34Z) - Towards Single-System Illusion in Software-Defined Vehicles -- Automated, AI-Powered Workflow [3.2821049498759094]
本稿では,車載ソフトウェアシステムの開発における,新しいモデルと特徴に基づくアプローチを提案する。
提案されたアプローチの重要なポイントの1つは、近代的な生成AI、特にLarge Language Models(LLM)の導入である。
その結果、パイプラインは広範囲に自動化され、各ステップでフィードバックが生成される。
論文 参考訳(メタデータ) (2024-03-21T15:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。