論文の概要: Harnesses for Inference-Time Alignment over Execution Trajectories
- arxiv url: http://arxiv.org/abs/2605.21516v1
- Date: Fri, 15 May 2026 12:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.924639
- Title: Harnesses for Inference-Time Alignment over Execution Trajectories
- Title(参考訳): 実行軌道に対する推測時間アライメントのハーネス
- Authors: Boyuan Wang, Bochao Li, Minghan Wang, Yuxin Tao, Fang Kong,
- Abstract要約: 推論時間軌道アライメントのレンズによるハーネス設計について検討する。
この分解により、ワークフロー、再試行予算、ガイダンスによるアクションの重み付けがハーネス設計のパフォーマンス限界を形作る方法の定量化が可能になります。
この理論に触発されて、有効なハーネスは部分的であることを示す: 初期ステップのみを指定し、残りの実行をエージェントに残すことで、より高いパスレートを達成することができる。
- 参考スコア(独自算出の注目度): 13.182534464050695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Harness engineering has emerged as an important inference-time technique for large language model (LLM) agents, aiming to improve long-term performance through task decomposition and guided execution. However, more elaborate harnesses are not uniformly better: increasing decomposition or guidance can sometimes improve execution, but can also reduce final task success. We study harness design through the lens of inference-time trajectory alignment. This perspective separates harness into two mechanisms: task decomposition, which structures a task into sub-goals, and guided execution, which reshapes local action distributions during execution. This decomposition allows us to quantify how workflow granularity, retry budgets, and guidance-induced action reweighting shape the performance limits of harness design. It further reveals concrete failure modes, including over-decomposition, over-pruning, and hallucinated execution. We validate these predictions through controlled synthetic experiments and real terminal agent benchmarks. Inspired by the theory, we further show that effective harnesses can be partial: specifying only the initial steps and leaving the remaining execution to agent can achieve higher pass rate than fully structured workflows.
- Abstract(参考訳): Harness Engineeringは大規模言語モデル(LLM)エージェントの重要な推論時間技術として登場し、タスク分解とガイド付き実行による長期的なパフォーマンス向上を目指している。
しかし、より精巧なハーネスは、一様ではなく、分解やガイダンスの増加は、時には実行を改善するが、最終的なタスクの成功を減らすこともできる。
推論時間軌道アライメントのレンズによるハーネス設計について検討する。
この観点では、ハーネスを2つのメカニズムに分けている。タスクをサブゴールに構造化するタスク分解と、実行中のローカルアクション分布を再設定するガイド付き実行である。
この分解により、ワークフローの粒度の定量化、予算の再試行、ガイダンスによるアクション再重み付けがハーネス設計の性能限界を形作ることができる。
さらに、オーバー分解、オーバープルーニング、幻覚的実行など、具体的な障害モードを明らかにしている。
制御された合成実験と実端末エージェントベンチマークを用いて,これらの予測を検証した。
この理論に触発されて、有効なハーネスは部分的であることを示す: 初期ステップのみを指定し、残りの実行をエージェントに残せば、完全に構造化されたワークフローよりも高いパスレートを達成することができる。
関連論文リスト
- TIER: Trajectory-Invariant Execution Rewards for Multi-Step Tool Composition [62.56752617853322]
アウトカムベースの報酬はスパースフィードバックのみを提供するが、トラジェクトリによる報酬は注釈付き参照ソリューションに依存している。
本稿では,関数スキーマと実行時実行を直接管理する報奨フレームワークであるtrajectory-Invariant Execution Rewardsを提案する。
論文 参考訳(メタデータ) (2026-05-16T03:47:26Z) - From Reaction to Anticipation: Proactive Failure Recovery through Agentic Task Graph for Robotic Manipulation [45.37258918150899]
本稿では,操作タスクを有向タスクグラフとしてモデル化するエージェントシステムであるAgentChordを紹介する。
実行前に、このグラフには、コンテキスト対応の修正動作を指定する予測リカバリブランチが組み込まれている。
多様な長距離双方向操作タスクに関する実証研究は、AgentChordが成功率と実行効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T11:00:45Z) - Robust and Efficient Tool Orchestration via Layered Execution Structures with Reflective Correction [55.13278005189741]
私たちは、高レベルのツール依存関係をキャプチャする階層化された実行構造を学ぶために、ツールオーケストレーションをモデル化します。
本稿では,局所的にエラーを検出し,修正するスキーマ対応反射補正機構を提案する。
この設計では、エラーを個々のツールコールに限定し、実行軌跡全体の再計画を避ける。
論文 参考訳(メタデータ) (2026-02-21T22:20:01Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。