論文の概要: In-IDE Toolkit for Developers of AI-Based Features
- arxiv url: http://arxiv.org/abs/2605.14612v1
- Date: Thu, 14 May 2026 09:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.751443
- Title: In-IDE Toolkit for Developers of AI-Based Features
- Title(参考訳): AIベースの機能開発のためのIDEツールキット
- Authors: Yaroslav Sokolov, Yury Khudyakov, Lenar Sharipov, Andrei Gasparian, Parth Tiwary, Artem Trofimov,
- Abstract要約: 我々はJetBrainsのAI Toolkitプラグインを紹介し、Run/Debugループに直接トレースと評価をもたらす。
AIエージェントとAI評価の設計と実装について詳述し、最初の採用テレメトリを報告し、フレームワークのカバレッジとスケール評価を拡大するための次のステップを概説する。
- 参考スコア(独自算出の注目度): 0.24629531282150877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-enabled features built on LLMs and agentic workflows are difficult to test, debug, and reproduce, especially for product-focused software engineers without a machine learning background. We present the AI Toolkit plugin for JetBrains IDEs, which brings tracing and evaluation directly into the Run/Debug loop. A mixed methods study with practitioners presents three consistent needs: (1) make evaluation regular and repeatable, (2) expose traces at the moment of execution, and (3) minimize setup and context switching. Guided by these needs, the AI Toolkit introduces an IDE-native workflow: run-triggered trace capture; immediate, hierarchical inspection; one-click "Add to Dataset" from traces; and unit-test-like evaluations with pluggable metrics. The first release in PyCharm shows promising early signals - strong conversion when promoted at Run, sustained usage among those who capture traces, and low churn - suggesting that IDE-native observability lowers activation energy and helps developers adopt disciplined practices. We detail the design and implementation of the AI Agents Debugger and AI Evaluation, report initial adoption telemetry, and outline next steps to broaden framework coverage and scale evaluations. Together, these results indicate that integrating AI observability and evaluation into everyday IDE workflows can make modern AI development accessible to non-ML specialists while preserving software-engineering practices.
- Abstract(参考訳): LLMとエージェントワークフロー上に構築されたAI対応機能は、特に機械学習のバックグラウンドを持たない製品にフォーカスしたソフトウェアエンジニアに対して、テスト、デバッグ、再現が難しい。
我々はJetBrains IDE向けのAI Toolkitプラグインを紹介し、Run/Debugループに直接トレースと評価をもたらす。
1) 評価を規則的かつ反復可能であること,(2) 実行時にトレースを露出すること,(3) 設定とコンテキストの切り替えを最小限にすること,である。
これらのニーズにガイドされたAI Toolkitは、実行トリガーされたトレースキャプチャ、即時かつ階層的なインスペクション、トレースからのワンクリック“Add to Dataset”、プラグイン可能なメトリクスによるユニットテストのような評価という、IDEネイティブワークフローを導入している。
PyCharmの最初のリリースは、将来有望な早期シグナル - Runでのプロモート時の強力な変換、トレースをキャプチャする人々の間での持続的な使用、チャーン(low churn) – を示し、IDEネイティブな可観測性によってアクティベーションエネルが低下し、開発者が規律付きプラクティスを採用するのに役立つことを示唆している。
AIエージェントデバッガとAI評価の設計と実装について詳述し、最初の採用テレメトリを報告し、フレームワークのカバレッジとスケール評価を拡大するための次のステップを概説する。
これらの結果は、AIの可観測性と評価を日々のIDEワークフローに統合することで、ソフトウェアエンジニアリングのプラクティスを保ちながら、現代のAI開発が非MLスペシャリストにアクセスできることを示唆している。
関連論文リスト
- IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks [0.37823923040445995]
我々は、生の端末実行を超えるDocker化されたテストハーネスを提示します。
検索、構造化ファイル編集、フルスタックアプリケーションのテストツールに高レベルの抽象化を提供する。
論文 参考訳(メタデータ) (2026-01-28T02:06:37Z) - DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle [84.01703913780946]
現実世界のソフトウェアでDevOpsサイクルを扱うには、大規模なプロジェクトを分析し、動的プログラムの振る舞いを理解し、ドメイン固有のツールを活用し、シーケンシャルな決定を行う必要がある。
DevOps-Gymは、コアDevOpsタスク間でAIエージェントを評価するための、最初のエンドツーエンドベンチマークです。
論文 参考訳(メタデータ) (2026-01-27T18:43:46Z) - AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development [12.50615284537175]
大規模言語モデル(LLM)ベースのコーディングエージェントは、プルリクエストの生成とマージを行う自律的なコントリビュータとして機能するようになっている。
本稿では,オープンソースリポジトリにおけるエージェント導入の経時的因果関係について検討する。
論文 参考訳(メタデータ) (2026-01-20T04:51:56Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - MIRA: Empowering One-Touch AI Services on Smartphones with MLLM-based Instruction Recommendation [61.19099947706954]
本稿では,タスク・インストラクション・レコメンデーションの先駆的フレームワークであるMIRAを紹介する。
MIRAを使用すると、ユーザーは画像やテキストオブジェクトを長押しして、AIタスクを実行するためのコンテキスト関連命令レコメンデーションを受け取ることができる。
MIRAは命令レコメンデーションの精度を大幅に改善した。
論文 参考訳(メタデータ) (2025-09-17T07:43:14Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - MONAI Label: A framework for AI-assisted Interactive Labeling of 3D
Medical Images [49.664220687980006]
注釈付きデータセットの欠如は、タスク固有の教師付き機械学習モデルをトレーニングする上で、大きなボトルネックとなる。
本稿では,人工知能(AI)モデルに基づくアプリケーション開発を支援する,フリーかつオープンソースなフレームワークであるmonAI Labelを紹介する。
論文 参考訳(メタデータ) (2022-03-23T12:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。