論文の概要: TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis
- arxiv url: http://arxiv.org/abs/2603.17973v1
- Date: Wed, 18 Mar 2026 17:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.862516
- Title: TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis
- Title(参考訳): TDAD: テスト駆動型エージェント開発 - グラフベースの影響分析によるAIコーディングエージェントのコード回帰低減
- Authors: Pepe Alonso,
- Abstract要約: TDAD(Test-Driven Agentic Development、テスト駆動エージェント開発)は、抽象構文木(AST)ベースのコードテストグラフ構築と重み付けされた影響分析を組み合わせたオープンソースのツールとベンチマーク手法である。
結果: TDADのGraphRAGワークフローは、テストレベルの回帰を70%(6.08%から1.82%)削減し、エージェントスキルとしてデプロイされた場合の解像度を24%から32%に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents can resolve real-world software issues, yet they frequently introduce regressions, breaking tests that previously passed. Current benchmarks focus almost exclusively on resolution rate, leaving regression behavior under-studied. This paper presents TDAD (Test-Driven Agentic Development), an open-source tool and benchmark methodology that combines abstract-syntax-tree (AST) based code-test graph construction with weighted impact analysis to surface the tests most likely affected by a proposed change. Evaluated on SWE-bench Verified with two local models (Qwen3-Coder 30B on 100 instances and Qwen3.5-35B-A3B on 25 instances), TDAD's GraphRAG workflow reduced test-level regressions by 70% (6.08% to 1.82%) and improved resolution from 24% to 32% when deployed as an agent skill. A surprising finding is that TDD prompting alone increased regressions (9.94%), revealing that smaller models benefit more from contextual information (which tests to verify) than from procedural instructions (how to do TDD). An autonomous auto-improvement loop raised resolution from 12% to 60% on a 10-instance subset with 0% regression. These findings suggest that for AI agent tool design, surfacing contextual information outperforms prescribing procedural workflows. All code, data, and logs are publicly available at https://github.com/pepealonso95/TDAD.
- Abstract(参考訳): AIコーディングエージェントは、現実世界のソフトウェア問題を解決することができるが、しばしばレグレッションを導入し、以前パスしたテストを破る。
現在のベンチマークでは、回帰の振る舞いを過小評価したまま、ほとんど解決率にのみ焦点が当てられている。
本稿では、抽象構文木(AST)に基づくコード-テストグラフ構築と重み付き影響解析を組み合わせたオープンソースのツールおよびベンチマーク手法であるTDADについて述べる。
2つのローカルモデル(100インスタンスのQwen3-Coder 30B、25インスタンスのQwen3.5-35B-A3B)で評価されたTDADのGraphRAGワークフローは、テストレベルの回帰を70%(6.08%から1.82%)削減し、エージェントスキルとしてデプロイすると24%から32%に改善した。
意外な発見は、TDDの推進だけで回帰(9.94%)が増加し、より小さなモデルは、手続き的な指示(TDDの実践方法)よりも、文脈的な情報(検証する)から恩恵を受けることを明らかにしたことである。
自律的な自己改善ループは、回帰率0%の10インスタンスサブセットで12%から60%に高められた。
これらの結果は、AIエージェントツール設計において、コンテキスト情報は手続き的ワークフローを規定する前提よりも優れていることを示唆している。
すべてのコード、データ、ログはhttps://github.com/pepealonso95/TDADで公開されている。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications [0.0]
テスト駆動型AIエージェント定義(TDAD)は、エージェントプロンプトをコンパイルされたアーティファクトとして扱う方法論である。
SpecSuite-CoreのTDADは、ポリシーコンプライアンス、グラウンドド・アナリティクス、ランブックの遵守、決定論的強制にまたがる4つのエージェントのベンチマークである。
論文 参考訳(メタデータ) (2026-03-09T18:04:54Z) - AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-03T04:59:25Z) - MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。