Fugu-MT 論文翻訳(概要): AgentStepper: Interactive Debugging of Software Development Agents

論文の概要: AgentStepper: Interactive Debugging of Software Development Agents

arxiv url: http://arxiv.org/abs/2602.06593v1
Date: Fri, 06 Feb 2026 10:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.359339
Title: AgentStepper: Interactive Debugging of Software Development Agents
Title（参考訳）: AgentStepper: ソフトウェア開発エージェントのインタラクティブデバッグ
Authors: Robert Hutter, Michael Pradel,
Abstract要約: 本稿では,ソフトウェアエンジニアリングエージェントのための対話型デバッガであるAgentStepperを紹介する。 AgentStepperは、LLM、エージェントプログラム、ツール間の構造化された会話としてトラジェクトリを表す。ブレークポイント、ステップワイズ実行、プロンプトとツール呼び出しのライブ編集、中間リポジトリレベルのコード変更のキャプチャと表示をサポートする。
参考スコア（独自算出の注目度）: 14.265317773238529
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software development agents powered by large language models (LLMs) have shown great promise in automating tasks like environment setup, issue solving, and program repair. Unfortunately, understanding and debugging such agents remain challenging due to their complex and dynamic nature. Developers must reason about trajectories of LLM queries, tool calls, and code modifications, but current techniques reveal little of this intermediate process in a comprehensible format. The key insight of this paper is that debugging software development agents shares many similarities with conventional debugging of software programs, yet requires a higher level of abstraction that raises the level from low-level implementation details to high-level agent actions. Drawing on this insight, we introduce AgentStepper, the first interactive debugger for LLM-based software engineering agents. AgentStepper enables developers to inspect, control, and interactively manipulate agent trajectories. AgentStepper represents trajectories as structured conversations among an LLM, the agent program, and tools. It supports breakpoints, stepwise execution, and live editing of prompts and tool invocations, while capturing and displaying intermediate repository-level code changes. Our evaluation applies AgentStepper to three state-of-the-art software development agents, ExecutionAgent, SWE-Agent, and RepairAgent, showing that integrating the approach into existing agents requires minor code changes (39-42 edited lines). Moreover, we report on a user study with twelve participants, indicating that AgentStepper improves the ability of participants to interpret trajectories (64% vs. 67% mean performance) and identify bugs in the agent's implementation (17% vs. 60% success rate), while reducing perceived workload (e.g., frustration reduced from 5.4/7.0 to 2.4/7.0) compared to conventional tools.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用したソフトウェア開発エージェントは、環境設定、問題解決、プログラムの修復といったタスクを自動化する上で大きな可能性を示しています。残念ながら、そのようなエージェントの理解とデバッグは、複雑で動的な性質のため難しいままである。開発者は、LLMクエリ、ツールコール、コード修正の軌跡について考える必要があるが、現在の技術は、この中間プロセスの理解可能な形式をほとんど示していない。この論文の重要な洞察は、デバッグソフトウェア開発エージェントは、従来のソフトウェアプログラムのデバッグと多くの類似点を共有しているが、低レベルの実装の詳細から高レベルのエージェントアクションまで、高いレベルの抽象化を必要とすることである。この知見に基づいて,LLMベースのソフトウェアエンジニアリングエージェントのための対話型デバッガであるAgentStepperを紹介する。 AgentStepperを使うと、開発者はエージェントのトラジェクトリを検査、制御、インタラクティブに操作できる。 AgentStepperは、LLM、エージェントプログラム、ツール間の構造化された会話としてトラジェクトリを表す。ブレークポイント、ステップワイズ実行、プロンプトとツール呼び出しのライブ編集、中間リポジトリレベルのコード変更のキャプチャと表示をサポートする。我々はAgentStepperを3つの最先端ソフトウェア開発エージェント、ExecutionAgent, SWE-Agent, repairAgentに適用し、アプローチを既存のエージェントに統合するにはマイナーコードの変更(39-42行の編集)が必要であることを示した。さらに,12名の参加者を対象に,AgentStepperは,従来のツールと比較して作業負荷(例えば,フラストレーションが5.4/7.0から2.4/7.0に減少するなど)を減らしながら,参加者の軌跡の解釈能力(平均64%対平均67%)を改善し,エージェントの実装におけるバグを識別できることを報告した。

関連論文リスト

TOM-SWE: User Mental Modeling For Software Engineering Agents [75.28749912645127]
ToM-SWEは、プライマリ・ソフトウェア・エンジニアリング(SWE)エージェントとライトウェイト・オブ・ミンド(ToM)パートナーエージェントを組み合わせたデュアルエージェントアーキテクチャである。 ToM-SWEは、ユーザー目標、制約、およびインストラクションとインタラクション履歴から好みを推測する。 2つのソフトウェアエンジニアリングベンチマークでは、ToM-SWEはタスクの成功率とユーザの満足度を改善する。
論文参考訳（メタデータ） (2025-10-24T16:09:51Z)
AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。 Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。 AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文参考訳（メタデータ） (2025-09-03T13:42:14Z)
AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文参考訳（メタデータ） (2025-08-02T07:59:34Z)
AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。 AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文参考訳（メタデータ） (2025-07-26T10:10:02Z)
Towards Adaptive Software Agents for Debugging [0.40964539027092917]
本稿では,エージェントの数とその役割を動的に決定する適応型エージェント設計を提案する。最初の評価では、適応設計では、生成されるエージェントの数はバグのあるコードの複雑さに依存することが示されている。治療効果は, ワンショットプロンプトよりも平均11%改善した。
論文参考訳（メタデータ） (2025-04-25T12:48:08Z)
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-20T05:41:55Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文参考訳（メタデータ） (2024-02-21T04:11:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。