論文の概要: Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
- arxiv url: http://arxiv.org/abs/2604.25850v1
- Date: Tue, 28 Apr 2026 16:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.960924
- Title: Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
- Title(参考訳): エージェント・ハーネスエンジニアリング: 可観測性駆動型コーディング・アジェント・ハーネスの自動進化
- Authors: Jiahang Lin, Shichun Liu, Chengjun Pan, Lizhi Lin, Shihan Dou, Xuanjing Huang, Hang Yan, Zhenhua Han, Tao Gui,
- Abstract要約: エージェント・ハーネス・エンジニアリング(Agenic Harness Engineering)は、任意の工学ループの3段階を、一致した可観測性柱で測定した。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
これらの結果から, 可観測性駆動型進化は, 符号化エージェントを継続的に改善するための実践的経路として位置づけられた。
- 参考スコア(独自算出の注目度): 57.20181537213498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harnesses have become a central determinant of coding-agent performance, shaping how models interact with repositories, tools, and execution environments. Yet automating harness engineering is hard: a heterogeneous action space, sparse and noisy evaluation signal, multi-million-token trajectories, and edits whose effect is hard to attribute to the next round's outcomes. We introduce Agentic Harness Engineering (AHE), a framework that automates harness-level evolution by instrumenting the three stages of any engineering loop (component editing, trajectory inspection, and decision making) with matched observability pillars: (1) component observability gives every editable harness component a file-level representation so the action space is explicit and revertible; (2) experience observability distills millions of raw trajectory tokens into a layered, drill-down evidence corpus that an evolving agent can actually consume; and (3) decision observability pairs every edit with a self-declared prediction, later verified against the next round's task-level outcomes. Together, these pillars turn every edit into a falsifiable contract, so harness evolution proceeds autonomously without collapsing into trial-and-error. Empirically, ten AHE iterations lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%, surpassing the human-designed harness Codex-CLI (71.9%) and the self-evolving baselines ACE and TF-GRPO. The frozen harness transfers without re-evolution: on SWE-bench-verified it tops aggregate success at 12% fewer tokens than the seed, and on Terminal-Bench 2 it yields +5.1 to +10.1pp cross-family gains across three alternate model families, indicating the evolved components encode general engineering experience rather than benchmark-specific tuning. These results position observability-driven evolution as a practical pathway to keep coding-agent harnesses continually improving.
- Abstract(参考訳): Harnessesは、モデルがリポジトリ、ツール、実行環境とどのように相互作用するかを形作る、コーディングエージェントのパフォーマンスの中心的な決定要因となっている。
しかし、ハーネスエンジニアリングの自動化は難しい。異質なアクションスペース、スパースでノイズの多い評価信号、数百万トーケン軌道、そして次のラウンドの結果に寄与しにくい効果を編集する。
1) コンポーネントオブザーバビリティは、編集可能なすべてのハーネスコンポーネントにファイルレベルの表現を与えるので、アクション空間は明示的で可逆である; 2) 経験オブザーバビリティは、進化するエージェントが実際に消費できる数百万の生のトラジェクトリトークンを層状でドリルダウンエビデンスコーパスに蒸留し、(3) 決定オブザーバビリティは、各編集と自己宣言された予測をペアリングし、次のラウンドのタスクレベルの結果に対して検証する。
これらの柱は、全ての編集を偽造可能な契約に変換するので、試行錯誤に陥ることなく、進化を自律的に進める。
実証的に、10回のAHEイテレーションは、ターミナルベンチ2のパス@1を69.7%から77.0%に引き上げ、人間によって設計されたハーネスのコーデックス-CLI(71.9%)と自己進化するベースラインACEとTF-GRPOを上回った。
凍結したハーネスは再進化することなく移動し、SWE-bench-verifiedでは12%のトークンで成功し、Terminal-Bench 2では3つの異なるモデルファミリーで+5.1から+10.1ppのクロスファミリーゲインを発生させ、進化したコンポーネントがベンチマーク固有のチューニングよりも一般的なエンジニアリング経験をコードしていることを示している。
これらの結果から, 可観測性駆動型進化は, 符号化エージェントを継続的に改善するための実践的経路として位置づけられた。
関連論文リスト
- Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols [6.357772907811544]
SSRP(Self- Synthesizing Reasoning Protocols)は、アーキテクチャ計画と手続き実行の分離を実装するメタ認知フレームワークである。
提案する実験層は,浅電流に基づく検索パイロット,高エントロピーSOP,セマンティックハイジャック3ホップ多要素合成タスクの3種類である。
以上の結果から,GPT 5.4の非定常バニラ基準線が0.1%に崩壊し,SSRPは715X耐力限界を達成した。
論文 参考訳(メタデータ) (2026-04-27T14:13:30Z) - AnomalyAgent: Agentic Industrial Anomaly Synthesis via Tool-Augmented Reinforcement Learning [7.129476412364631]
本稿では,自己回帰,知識検索,反復的精錬機能を備えた異常合成エージェントであるAnomalyAgentを提案する。
具体的には、AnomalyAgentは、プロンプト生成(PG)、画像生成(IG)、品質評価(QE)、知識検索(KR)、マスク生成(MG)の5つのツールを備えている。
MVTec-ADデータセットでは、AnomalyAgent合成は、異常生成のための2.0.33のIS/IC-L、ResNet34を用いた57.0%の分類精度、単純なUNetを使用して画像/ピクセルレベルで99.3%/74.2%のAPを達成する。
論文 参考訳(メタデータ) (2026-04-09T07:17:00Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery [67.47220507982522]
大規模言語モデル(LLM)ベースの進化は、オープンな発見のための有望なアプローチである。
オープンエンド問題における自律的マルチエージェント進化のための最初のフレームワークであるCORALを紹介する。
コーラルは、厳格な制御を長期にわたるエージェントに置き換え、探索し、反射し、協力する。
論文 参考訳(メタデータ) (2026-04-02T05:59:06Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Beyond Quantity: Trajectory Diversity Scaling for Code Agents [51.71414642763219]
Trajectory Diversity Scalingは、コードエージェントのためのデータ合成フレームワークである。
TDScalingは、(1)実際のサービスの論理的依存関係をキャプチャするBusiness Clusterメカニズム、(2)軌道コヒーレンスを強制するブループリント駆動のマルチエージェントパラダイム、(3)ロングテールシナリオを指向する適応的な進化メカニズムの4つの革新を統合しています。
論文 参考訳(メタデータ) (2026-02-03T07:43:03Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。