Fugu-MT 論文翻訳(概要): From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

論文の概要: From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

arxiv url: http://arxiv.org/abs/2606.06324v1
Date: Thu, 04 Jun 2026 15:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.928067
Title: From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws
Title（参考訳）: 障害軌跡から信頼性LLM剤へ:傷の診断と修復
Authors: Mengzhuo Chen, Junjie Wang, Zhe Liu, Yawen Wang, Qing Wang,
Abstract要約: 本稿では,エージェント故障の診断と修復を行うためのトレースガイドフレームワークであるHarnessFixを提案する。 HarnessFixは生の実行トレースをコンパイルし、コードをHarness対応のトレース中間表現に変換する。障害の原因は、責任ある軌道ステップとレイヤの活用、繰り返し診断を実行可能な欠陥レコードに集約し、スコープ化された修復オペレータにマップすることにある。
参考スコア（独自算出の注目度）: 12.757205456771295
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM-based agents increasingly rely on harnesses that provide execution environments, tool interfaces, context, lifecycle orchestration, observability, verification, and governance. Existing self-improving agents and automatic harness evolution methods mainly improve agents through runtime supervision, prompt optimization, workflow search, or harness modification based on final outcomes. However, they often fail to diagnose where the responsible evidence lies in failed trajectories and which harness layer causes the unreliable behavior, resulting in broad, indirect, or poorly scoped changes. This paper proposes HarnessFix, a trace-guided framework for diagnosing agent failures and repairing agent harnesses. HarnessFix compiles raw execution traces and harness code into a Harness-aware Trace Intermediate Representation (HTIR), which normalizes fragmented trajectory evidence and captures step-level provenance and control-flow relations. It then attributes failures to responsible trajectory steps and harness layers, consolidates recurring diagnoses into actionable flaw records, and maps them to scoped repair operators. Finally, HarnessFix generates and validates harness patches under flaw-specific repair specifications to reduce target flaws without introducing unacceptable regressions. We evaluate HarnessFix on SWE-Bench Verified, Terminal-Bench 2.0 Verified, GAIA and AppWorld. Across these benchmarks, HarnessFix improves held-out test performance over the initial harnesses by 15.2%--50.0%, outperforms human-designed and self-evolution baselines, and reveals recurring harness-flaw patterns across ETCLOVG layers.
Abstract（参考訳）: LLMベースのエージェントは、実行環境、ツールインターフェース、コンテキスト、ライフサイクルオーケストレーション、可観測性、検証、ガバナンスを提供するハーネスにますます依存している。既存の自己改善エージェントと自動ハーネス進化手法は、実行時の監督、迅速な最適化、ワークフロー探索、最終結果に基づく修正によるエージェントの改善が主である。しかし、彼らはしばしば、責任ある証拠が軌道にどこにあるか、どのハーネス層が信頼できない振る舞いを引き起こすかの診断に失敗し、その結果、広範、間接的、あるいは不十分なスコープの変化をもたらす。本稿では,エージェント故障の診断と修復を行うためのトレースガイドフレームワークであるHarnessFixを提案する。 HarnessFixは生の実行トレースをコンパイルし、コードをHTIR(Harness-aware Trace Intermediate Representation)にコンパイルする。次に、障害の原因は、責任ある軌道ステップとレイヤの活用であり、繰り返し診断を実行可能な欠陥レコードに集約し、それらをスコープ化された修復オペレータにマップする。最後に、HarnessFixは欠陥固有の修正仕様の下でハーネスパッチを生成し、検証し、許容できないレグレッションを導入することなく、ターゲットの欠陥を減らす。 SWE-Bench Verified, Terminal-Bench 2.0 Verified, GAIA, AppWorldにおけるHarnessFixの評価を行った。これらのベンチマーク全体で、HarnessFixは初期ハーネスに対するホールドアウトテストのパフォーマンスを15.2%から50.0%改善し、人間設計のベースラインと自己進化のベースラインを上回り、ECCLOVG層にまたがるハーネスフォールパターンの繰り返しを示す。

関連論文リスト

EviACT: An Evidence-to-Action Framework for Agentic Program Repair [21.78498442884825]
EviACTは、3つのエビデンス駆動ガードレールを修復段階にわたって調整するエージェントAPRフレームワークである。最強の報告されたベースラインよりも1.6-6.0ポイントのリゾルバ率を改善する。ベースラインコストが利用可能なバグ毎のAPIコストは70.1-88.6%低下している。
論文参考訳（メタデータ） (2026-05-26T16:17:47Z)
CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures [4.061481215870679]
フェールエージェントトレースを最小限の偽物修復と再利用可能な監視に変換する介入フレームワークであるCausalFlowを紹介した。 CaulFlowは、最小限の振る舞いドリフトで障害から回復するターゲットテスト時修復と、オフラインの優先度最適化や報酬モデリングに適したトレーニング時間監視の2つの補完的な使用をサポートする。
論文参考訳（メタデータ） (2026-05-25T01:47:01Z)
VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文参考訳（メタデータ） (2026-05-17T14:09:35Z)
On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment [54.30690671490447]
既存の安全アライメント信号は、主に応答レベルまたは政治外である。 FATEは、検証済みの失敗を専門家のデモンストレーションなしで修復管理に変換する。 FATEは攻撃成功率を33.5%、有害なコンプライアンスを82.6%削減し、外的軌道安全診断を6.5%改善する。
論文参考訳（メタデータ） (2026-05-12T09:56:28Z)
LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。 CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文参考訳（メタデータ） (2026-05-02T11:31:33Z)
Beyond Fixed Tests: Repository-Level Issue Resolution as Coevolution of Code and Behavioral Constraints [17.818522356206977]
ほとんどの大規模言語モデル(LLM)ベースの修復システムは、修理中に固定された動作制約を扱います。本稿では,Agent-CoEvoを提案する。Agent-CoEvoは共進化的マルチエージェントフレームワークで,候補コードパッチとテストパッチを共同で探索し,洗練する。 Agent-CoEvoは、修復の成功と再現性の両方において、最先端のエージェントベースとエージェントレスベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-04-06T10:26:46Z)
Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。 Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文参考訳（メタデータ） (2026-03-23T14:48:54Z)
AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文参考訳（メタデータ） (2026-02-18T14:55:35Z)
TraceCoder: A Trace-Driven Multi-Agent Framework for Automated Debugging of LLM-Generated Code [11.207330722400764]
人間の観察・分析・修復過程をエミュレートするフレームワークであるTraceCoderを提案する。このフレームワークはまずコードを診断プローブで測定し、粒度の細かいランタイムトレースをキャプチャする。その後、これらのトレースについて因果解析を行い、失敗の根本原因を正確に特定する。
論文参考訳（メタデータ） (2026-02-06T16:59:48Z)
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。 DoVerは失敗試験の18～28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30～60%を検証または否定する。
論文参考訳（メタデータ） (2025-12-07T09:23:48Z)
Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文参考訳（メタデータ） (2025-10-16T05:35:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。