論文の概要: Dynamic analysis enhances issue resolution
- arxiv url: http://arxiv.org/abs/2603.22048v2
- Date: Tue, 24 Mar 2026 02:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.611983
- Title: Dynamic analysis enhances issue resolution
- Title(参考訳): 動的解析は問題解決を促進する
- Authors: Mingwei Liu, Zihao Wang, Zhenxi Chen, Zheng Pei, Yanlin Wang, Zibin Zheng,
- Abstract要約: DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
- 参考スコア(独自算出の注目度): 53.50448142467294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating natural language descriptions into viable code fixes remains a fundamental challenge in software engineering. While the proliferation of agentic large language models (LLMs) has vastly improved automated repository-level debugging, current frameworks hit a ceiling when dealing with sophisticated bugs like implicit type degradations and complex polymorphic control flows. Because these methods rely heavily on static analysis and superficial execution feedback, they lack visibility into intermediate runtime states. Consequently, agents are forced into costly, speculative trial-and-error loops, wasting computational tokens without successfully isolating the root cause. To bridge this gap, we propose DAIRA (Dynamic Analysis-enhanced Issue Resolution Agent), a pioneering automated repair framework that natively embeds dynamic analysis into the agent's reasoning cycle. Driven by a Test Tracing-Driven methodology, DAIRA utilizes lightweight monitors to extract critical runtime data -- such as variable mutations and call stacks -- and synthesizes them into structured semantic reports. This mechanism fundamentally shifts the agent's behavior from blind guesswork to evidence-based, deterministic deduction. When powered by Gemini 3 Flash Preview, DAIRA establishes a new state-of-the-art (SOTA) performance, achieving a 79.4% resolution rate on the SWE-bench Verified dataset. Compared to existing baselines, our framework not only conquers highly complex defects but also cuts overall inference expenses by roughly 10% and decreases input token consumption by approximately 25%.
- Abstract(参考訳): 自然言語記述を実行可能なコード修正に変換することは、ソフトウェア工学における根本的な課題である。
エージェント型大規模言語モデル(LLM)の普及はリポジトリレベルの自動デバッグを大幅に改善したが、暗黙の型劣化や複雑な多型制御フローといった高度なバグを扱う場合、現在のフレームワークは天井につく。
これらの手法は静的解析と表面的な実行フィードバックに大きく依存しているため、中間ランタイム状態への可視性を欠いている。
その結果、エージェントはコストがかかる投機的試行錯誤ループに強制され、根本原因をうまく分離することなく計算トークンを浪費する。
このギャップを埋めるために、エージェントの推論サイクルに動的解析をネイティブに組み込む、先駆的な自動修復フレームワークであるDAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)を提案する。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して、変数の突然変異やコールスタックといった重要なランタイムデータを抽出し、それらを構造化されたセマンティックレポートに合成する。
このメカニズムは、エージェントの振る舞いをブラインドな推測からエビデンスに基づく決定論的推論へと根本的にシフトさせる。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
既存のベースラインと比較して、我々のフレームワークは高度に複雑な欠陥を克服するだけでなく、全体の推論コストを約10%削減し、入力トークンの消費を約25%削減します。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - SUNSET -- A Sensor-fUsioN based semantic SegmEnTation exemplar for ROS-based self-adaptation [2.8210523386413087]
アーキテクチャに基づく自己適応の厳密かつ反復的な評価を可能にするROS2ベースの例であるSUNSETを提案する。
SUNSETには、セグメンテーションパイプライン、トレーニングされたMLモデル、不確実性注入スクリプト、ベースラインコントローラ、ステップバイステップの統合と評価ドキュメントが含まれている。
論文 参考訳(メタデータ) (2026-01-20T08:40:57Z) - Detecting Pipeline Failures through Fine-Grained Analysis of Web Agents [0.48156730450374763]
この研究は既存のベンチマークを分析し、きめ細かい診断ツールの欠如を強調している。
本稿では,エージェントパイプラインを解釈可能なステージに分解し,詳細なエラー解析を行うモジュール評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T19:34:49Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。