論文の概要: TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis
- arxiv url: http://arxiv.org/abs/2603.17973v2
- Date: Thu, 19 Mar 2026 17:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 14:52:42.166644
- Title: TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis
- Title(参考訳): TDAD: テスト駆動型エージェント開発 - グラフベースの影響分析によるAIコーディングエージェントのコード回帰低減
- Authors: Pepe Alonso, Sergio Yovine, Victor A. Braberman,
- Abstract要約: TDADはソースコードとテスト間の依存性マップを構築し、パッチをコミットする前に、エージェントはどのテストを検証して自己修正するかを知っている。
本稿では,AI符号化エージェントの事前変更影響分析を行うオープンソースツールであるTDADを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents can resolve real-world software issues, yet they frequently introduce regressions -- breaking tests that previously passed. Current benchmarks focus almost exclusively on resolution rate, leaving regression behavior under-studied. This paper presents TDAD (Test-Driven Agentic Development), an open-source tool that performs pre-change impact analysis for AI coding agents. TDAD builds a dependency map between source code and tests so that before committing a patch, the agent knows which tests to verify and can self-correct. The map is delivered as a lightweight agent skill -- a static text file the agent queries at runtime. Evaluated on SWE-bench Verified with two open-weight models running on consumer hardware (Qwen3-Coder 30B, 100 instances; Qwen3.5-35B-A3B, 25 instances), TDAD reduced regressions by 70% (6.08% to 1.82%) compared to a vanilla baseline. In contrast, adding TDD procedural instructions without targeted test context increased regressions to 9.94% -- worse than no intervention at all. When deployed as an agent skill with a different model and framework, TDAD improved issue-resolution rate from 24% to 32%, confirming that surfacing contextual information outperforms prescribing procedural workflows. All code, data, and logs are publicly available at https://github.com/pepealonso95/TDAD.
- Abstract(参考訳): AIコーディングエージェントは現実世界のソフトウェア問題を解決することができるが、しばしばレグレッションを導入している。
現在のベンチマークでは、回帰の振る舞いを過小評価したまま、ほとんど解決率にのみ焦点が当てられている。
本稿では、AIコーディングエージェントの事前変更影響分析を行うオープンソースツールであるTDAD(Test-Driven Agentic Development)を提案する。
TDADはソースコードとテスト間の依存性マップを構築し、パッチをコミットする前に、エージェントはどのテストを検証して自己修正するかを知っている。
マップは軽量なエージェントスキルとして提供されます -- エージェントが実行時にクエリする静的テキストファイルです。
コンシューマハードウェアで動作する2つのオープンウェイトモデル(Qwen3-Coder 30B, 100インスタンス、Qwen3.5-35B-A3B, 25インスタンス)で評価されたTDADは、バニラベースラインと比較してレグレッションを70%削減した(6.08%から1.82%)。
対照的に、テストコンテキストを対象とせずにTDDの手続き的な指示を追加すると、回帰率は9.94%に向上した。
異なるモデルとフレームワークを持つエージェントスキルとしてデプロイされると、TDADはイシュー解決率を24%から32%に改善し、コンテキスト情報が手続きワークフローの事前記述を上回ることを確認した。
すべてのコード、データ、ログはhttps://github.com/pepealonso95/TDADで公開されている。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications [0.0]
テスト駆動型AIエージェント定義(TDAD)は、エージェントプロンプトをコンパイルされたアーティファクトとして扱う方法論である。
SpecSuite-CoreのTDADは、ポリシーコンプライアンス、グラウンドド・アナリティクス、ランブックの遵守、決定論的強制にまたがる4つのエージェントのベンチマークである。
論文 参考訳(メタデータ) (2026-03-09T18:04:54Z) - AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-03T04:59:25Z) - MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。