論文の概要: SAFEdit: Does Multi-Agent Decomposition Resolve the Reliability Challenges of Instructed Code Editing?
- arxiv url: http://arxiv.org/abs/2604.25737v1
- Date: Tue, 28 Apr 2026 15:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.916885
- Title: SAFEdit: Does Multi-Agent Decomposition Resolve the Reliability Challenges of Instructed Code Editing?
- Title(参考訳): SAF編集:マルチエージェント分解は命令されたコード編集の信頼性問題を解決するか?
- Authors: Noam Tarshish, Nofar Selouk, Daniel Hodisan, Bar Ezra Gafniel, Yuval Elovici, Asaf Shabtai, Eliya Nachmani,
- Abstract要約: 命令付きコード編集のためのマルチエージェントフレームワークであるSAFEditを提案する。
Planner Agentは明示的で可視性に配慮した編集計画を生成し、Editor Agentは最小限のリテラルコード修正を適用し、Verifier Agentは実際のテスト実行を実行する。
テストが失敗すると、SAFEditはFailure Abstraction Layerを使用して生のテストログを構造化された診断フィードバックに変換する。
- 参考スコア(独自算出の注目度): 25.593993482047342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instructed code editing is a significant challenge for large language models (LLMs). On the EditBench benchmark, 39 of 40 evaluated models obtain a task success rate (TSR) below 60 percent, highlighting a gap between general code generation and the ability to perform instruction-driven editing under executable test constraints. To address this, we propose SAFEdit, a multi-agent framework for instructed code editing that decomposes the editing process into specialized roles to improve reliability and reduce unintended code changes. A Planner Agent produces an explicit, visibility-aware edit plan, an Editor Agent applies minimal, literal code modifications, and a Verifier Agent executes real test runs. When tests fail, SAFEdit uses a Failure Abstraction Layer (FAL) to transform raw test logs into structured diagnostic feedback, which is fed back to the Editor to support iterative refinement. We compare SAFEdit against both prior single-model results reported for EditBench and an implemented ReAct single-agent baseline under the same evaluation conditions. We used EditBench to evaluate SAFEdit on 445 code editing instances in five languages (English, Polish, Spanish, Chinese, and Russian) under varying spatial context variants. SAFEdit achieved 68.6 percent TSR, outperforming the single-model baseline by 3.8 percentage points and the ReAct single-agent baseline by 8.6 percentage points. The iterative refinement loop was found to contribute 17.4 percentage points to SAFEdit's overall success rate. SAFEdit's automated error analysis further indicates a reduction in instruction-level hallucinations compared to single-agent approaches, providing an additional framework component for interpreting failures beyond pass or fail outcomes.
- Abstract(参考訳): 命令付きコード編集は、大きな言語モデル(LLM)にとって重要な課題である。
EditBenchベンチマークでは、40のモデルのうち39がタスク成功率(TSR)を60%以下で取得し、一般的なコード生成と実行可能なテスト制約下で命令駆動編集を実行する能力のギャップを強調している。
そこで我々は,SAFEditを提案する。SAFEditは,編集プロセスを特殊な役割に分解し,信頼性を向上し,意図しないコード変更を減らすための,命令付きコード編集のためのマルチエージェントフレームワークである。
Planner Agentは明示的で可視性に配慮した編集計画を生成し、Editor Agentは最小限のリテラルコード修正を適用し、Verifier Agentは実際のテスト実行を実行する。
テストがフェールすると、SAFEditはFalure Abstraction Layer(FAL)を使用して生のテストログを構造化された診断フィードバックに変換する。
SAFEdit は EditBench と実装された ReAct 単一エージェントベースラインを同一評価条件下で比較した。
編集ベンチを用いて,空間的変化の異なる5言語(英語,ポーランド語,スペイン語,中国語,ロシア語)で,SAFEditを445のコード編集例で評価した。
SAFEditは68.6%のTSRを達成し、シングルモデルベースラインを3.8ポイント、ReActシングルエージェントベースラインを8.6ポイント上回った。
反復改善ループは、SAFEditの全体的な成功率に17.4ポイントの寄与が認められた。
SAFEditの自動エラー分析は、単一エージェントアプローチと比較して、命令レベルの幻覚が減少することを示し、パスやフェール以上の失敗を解釈するための追加のフレームワークコンポーネントを提供する。
関連論文リスト
- Edit, But Verify: An Empirical Audit of Instructed Code-Editing Benchmarks [2.5424331328233203]
命令付きコード編集は、現実世界のコーディングアシスタントのインタラクションの約19%を占める。
150以上のコード関連ベンチマークから、指示されたコード編集をターゲットとするCanItEditとEDIT-Benchの2つのみが見つかった。
論文 参考訳(メタデータ) (2026-04-06T18:59:42Z) - CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning [98.98349220451216]
CoEditor++は、編集を"編集する方法"と"編集方法"に分解する、トレーニング不要のフレームワークである。
我々は,CoEditor++が編集タスクと編集タスクの両方において,最先端のパフォーマンスを実現することを示す。
以上の結果から,認知中心型画像編集の可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-31T12:20:46Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Diffploit: Facilitating Cross-Version Exploit Migration for Open Source Library Vulnerabilities [13.559398564795048]
Diffploitは2つのキーモジュールを中心に構成された反復的で差分駆動のエクスプロイトマイグレーション手法である。
79のライブラリにわたる102のJava CVEと689のバージョンマイグレーションタスクを含む大規模データセット上でDiffploitを評価する。
84.2%のエクスプロイトの移行に成功し、変更対応のテスト修正ツールであるTARGETを52.0%、IDEAのルールベースのツールを61.6%上回った。
論文 参考訳(メタデータ) (2025-11-17T04:06:01Z) - MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [76.28901550926021]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
我々は,学習済みモデルのコア能力を保ちながら,残メモリを介して知識を注入する,新しいスケーラブルなフレームワークMEMOIRを提案する。
MeMOIRは信頼性、一般化、ローカリティのメトリクスにまたがる最先端のパフォーマンスを実現し、最小限の忘れ物で数千のシーケンシャルな編集にスケールする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Bridging the Editing Gap in LLMs: FineEdit for Precise and Targeted Text Modifications [4.751608548909266]
FineEditは、コンテキスト対応のテキスト修正のために明示的に訓練された特殊な編集モデルである。
FineEditはシングルターン編集で最先端のモデルより優れており、Llama-3.2-3Bより30%も上回り、Mistral-7B-OpenOrcaのパフォーマンスを40%以上上回っている。
論文 参考訳(メタデータ) (2025-02-19T01:41:44Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。