論文の概要: TDFlow: Agentic Workflows for Test Driven Software Engineering
- arxiv url: http://arxiv.org/abs/2510.23761v1
- Date: Mon, 27 Oct 2025 18:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.41841
- Title: TDFlow: Agentic Workflows for Test Driven Software Engineering
- Title(参考訳): TDFlow: テスト駆動ソフトウェアエンジニアリングのためのエージェントワークフロー
- Authors: Kevin Han, Siddharth Maddikayala, Tim Knappe, Om Patel, Austen Liao, Amir Barati Farimani,
- Abstract要約: TDFlowは、テスト解決タスクとして、リポジトリスケールのソフトウェアエンジニアリングをフレーム化します。
SWE-Bench LiteにおけるTDFlowのパスレートは88.8%である。
人間の開発者がテストを書くTDFlowを利用した人間-LLMインタラクティブシステムを提案する。
- 参考スコア(独自算出の注目度): 9.028820294564566
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce TDFlow, a novel test-driven agentic workflow that frames repository-scale software engineering as a test-resolution task, specifically designed to solve human-written tests. Given a set of tests, TDFlow repeatedly proposes, revises, and debugs repository-scale patches using precisely engineered sub-agents and tightly constrained tools. The workflow decomposes software engineering program repair into four components governed by respective sub-agents. This simple, forced decoupling of patch proposing, debugging, patch revision, and optional test generation (1) reduces long-context burden on any individual sub-agent, (2) focuses each sub-agent on specific, pre-defined sub-tasks, and (3) allows for specialized performance improvement on specific sub-tasks. When provided human-written tests, TDFlow attains 88.8% pass rate on SWE-Bench Lite (an absolute improvement of 27.8% over the next best system) and 94.3% on SWE-Bench Verified. Manual inspection of the 800 TDFlow runs within SWE-Bench Lite and Verified uncover only 7 instances of test hacking, which were subsequently counted as failures. Furthermore, we show that the primary obstacle to human-level software engineering performance lies within writing successful reproduction tests. We envision a human-LLM interactive system powered by TDFlow where human developers write tests solved by LLM systems. Together, these results indicate that modern LLMs, when embedded in a narrowly engineered, test-driven workflow, already achieve human-level test resolution -- with the final frontier for fully autonomous repository repair being the accurate generation of valid reproduction tests.
- Abstract(参考訳): 我々は、新しいテスト駆動エージェントワークフローであるTDFlowを紹介します。これは、テスト解決タスクとしてリポジトリスケールのソフトウェアエンジニアリングをフレーム化します。
一連のテストが与えられた後、TDFlowは、正確にエンジニアリングされたサブエージェントと厳密な制約のあるツールを使用して、リポジトリスケールのパッチを繰り返し提案し、修正し、デバッグする。
このワークフローは、ソフトウェアエンジニアリングプログラムの修理を、各サブエージェントが管理する4つのコンポーネントに分解する。
この単純で強制的なパッチプロポーシング、デバッギング、パッチリビジョン、オプションのテスト生成(1)は、個々のサブエージェントに対する長期コンテキストの負担を軽減し、(2)特定の、定義されたサブタスクに各サブエージェントを集中させ、(3)特定のサブタスクに対して特別なパフォーマンス改善を可能にする。
人間によるテストが提供されると、TDFlowはSWE-Bench Liteで88.8%、SWE-Bench Verifiedで94.3%のパスレートを達成した。
800 TDFlowを手動で検査し、SWE-Bench Lite内で実行し、テストハッキングの7つのインスタンスを検証した。
さらに、人間レベルのソフトウェアエンジニアリング性能の最大の障害は、成功した再現テストを書くことにあることを示す。
我々は、人間の開発者がLLMシステムによって解決されたテストを記述するTDFlowを利用した人間-LLMインタラクティブシステムを提案する。
これらの結果は、現代的なLLMが、狭義のテスト駆動ワークフローに組み込まれている場合、人間レベルのテスト解決がすでに達成されていることを示している。
関連論文リスト
- Automated Network Protocol Testing with LLM Agents [18.102379194660543]
NeTestLLMは、エンドツーエンドのネットワークプロトコルテストにマルチエージェント大規模言語モデル(LLM)を利用する。
実験では、NeTestLLMはOSPF、RIP、BGPで4,632件のテストケースを生成し、41の歴史的FRRoutingバグを現在の国家標準で11件と比較した。
論文 参考訳(メタデータ) (2025-10-15T07:55:15Z) - Unit Test Update through LLM-Driven Context Collection and Error-Type-Aware Refinement [5.8748750353007635]
テストのメンテナンス方法は、主に壊れたテストの修復に焦点を当て、新しい機能を検証するために既存のテストを強化するシナリオを無視します。
実運用コードの変更に応じて、ジャスト・イン・タイムの自動テスト更新を可能にする新しいアプローチであるTESTUPDATERを提案する。
TestUPDATERは94.4%のコンパイルパス率と86.7%のテストパス率を達成し、それぞれ最先端のSYTERを15.9%と20.0%で上回っている。
論文 参考訳(メタデータ) (2025-09-29T08:08:22Z) - SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。
人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。
私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-06-10T17:23:33Z) - Acceptance Test Generation with Large Language Models: An Industrial Case Study [0.7874708385247353]
大規模言語モデル(LLM)を利用したアシスタントは、プログラムコードや単体テストの生成にますます利用されている。
本稿では,2段階のプロセスでWebアプリケーションの実行可能受け入れテストを生成するLLMについて検討する。
この2段階のアプローチは、受け入れテスト駆動開発をサポートし、テスターコントロールを強化し、テスト品質を向上させる。
論文 参考訳(メタデータ) (2025-04-09T19:33:38Z) - ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization [51.280919773837645]
エージェントワークフロー最適化のための高性能フレームワークであるScoreFlowを開発した。
ScoreFlowは、量的フィードバックを考慮に入れた直接選好最適化手法の新たな変種であるScore-DPOを組み込んでいる。
質問応答、コーディング、数学的推論を通じて、既存のベースラインよりも8.2%改善されている。
論文 参考訳(メタデータ) (2025-02-06T18:47:49Z) - QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks [14.251006141747913]
QualityFlowはプログラム合成のための動的エージェントワークフローである。
Quality Checkerは、正しいプログラム、不完全な合成テストを受け入れ、ワークフローの逸脱を防ぐことができる。
論文 参考訳(メタデータ) (2025-01-20T21:47:06Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。