論文の概要: InfCode: Adversarial Iterative Refinement of Tests and Patches for Reliable Software Issue Resolution
- arxiv url: http://arxiv.org/abs/2511.16004v1
- Date: Thu, 20 Nov 2025 03:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.446804
- Title: InfCode: Adversarial Iterative Refinement of Tests and Patches for Reliable Software Issue Resolution
- Title(参考訳): InfCode: 信頼性の高いソフトウェア問題解決のためのテストとパッチの逆繰り返しリファインメント
- Authors: KeFan Li, Mengfei Wang, Hengzhi Zhang, Zhichao Li, Yuan Yuan, Mu Li, Xiang Gao, Hailong Sun, Chunming Hu, Weifeng Lv,
- Abstract要約: InfCodeは、リポジトリレベルの自動イシュー解決のための、対向的なマルチエージェントフレームワークである。
InfCodeは、テストパッチジェネレータとコードパッチジェネレータの間の逆インタラクションを通じて、テストとパッチの両方を反復的に洗練する。
DeepSeek-V3やClaude 4.5 Sonnetといったモデルを用いたSWE-bench LiteとSWE-benchの検証実験は、InfCodeが一貫して強力なベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 31.874379525390967
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have advanced software engineering automation, yet resolving real-world software issues remains difficult because it requires repository-level reasoning, accurate diagnostics, and strong verification signals. Existing agent-based and pipeline-based methods often rely on insufficient tests, which can lead to patches that satisfy verification but fail to fix the underlying defect. We present InfCode, an adversarial multi-agent framework for automated repository-level issue resolution. InfCode iteratively refines both tests and patches through adversarial interaction between a Test Patch Generator and a Code Patch Generator, while a Selector agent identifies the most reliable fix. The framework runs inside a containerized environment that supports realistic repository inspection, modification, and validation. Experiments on SWE-bench Lite and SWE-bench Verified using models such as DeepSeek-V3 and Claude 4.5 Sonnet show that InfCode consistently outperforms strong baselines. It achieves 79.4% performance on SWE-bench Verified, establishing a new state-of-the-art. We have released InfCode as an open-source project at https://github.com/Tokfinity/InfCode.
- Abstract(参考訳): 大規模言語モデルは高度なソフトウェアエンジニアリング自動化を備えているが、リポジトリレベルの推論、正確な診断、強力な検証信号を必要とするため、現実のソフトウェア問題の解決は難しいままである。
既存のエージェントベースのメソッドとパイプラインベースのメソッドは、多くの場合、不十分なテストに依存する。
InfCodeは、自動リポジトリレベルの課題解決のための逆マルチエージェントフレームワークである。
InfCodeは、テストパッチジェネレータとコードパッチジェネレータの間の逆インタラクションを通じて、テストとパッチの両方を反復的に洗練し、セレクタエージェントは最も信頼できる修正を特定する。
フレームワークはコンテナ化された環境内で動作し、現実的なリポジトリインスペクション、修正、バリデーションをサポートする。
DeepSeek-V3やClaude 4.5 Sonnetといったモデルを用いたSWE-bench LiteとSWE-benchの検証実験は、InfCodeが一貫して強力なベースラインを上回っていることを示している。
SWE-bench Verifiedで79.4%のパフォーマンスを達成し、新しい最先端技術を確立した。
InfCodeはhttps://github.com/Tokfinity/InfCode.comでオープンソースプロジェクトとしてリリースしました。
関連論文リスト
- Lares: LLM-driven Code Slice Semantic Search for Patch Presence Testing [17.526200201537343]
現代のソフトウェアエコシステムでは、1日の脆弱性はコードの大規模な再利用によって重大なセキュリティリスクを引き起こす。
しかし、既存の方法は、使用性と精度の制限に悩まされている。
パッチ存在テストのためのスケーラブルで正確な方法であるLalesを提案する。
論文 参考訳(メタデータ) (2025-11-03T05:46:29Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Exploring Plausible Patches Using Source Code Embeddings in JavaScript [1.3327130030147563]
オープンソースJavaScriptプロジェクトでDoc2Vecモデルをトレーニングし、10のバグに対して465のパッチを生成しました。
これらの正当なパッチと開発者修正は、元のプログラムとの類似性に基づいてランク付けされる。
これらの類似性リストを分析し、プレーンな文書埋め込みが誤分類につながる可能性があることを発見した。
論文 参考訳(メタデータ) (2021-03-31T06:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。