論文の概要: Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts
- arxiv url: http://arxiv.org/abs/2606.05922v1
- Date: Thu, 04 Jun 2026 09:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.690787
- Title: Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts
- Title(参考訳): リトロスペクティブ・ハーネス最適化:トラジェクティブ・ロールアウトによる自己選好によるLCMエージェントの改善
- Authors: Wenbo Pan, Shujie Liu, Chin-Yew Lin, Jingying Zeng, Xianfeng Tang, Xiangyang Zhou, Yan Lu, Xiaohua Jia,
- Abstract要約: 本稿では,過去の軌道のみを用いたエージェント・ハーネスを最適化する自己教師型手法であるRetrospective Harness Optimization (RHO)を紹介する。
RHOは、過去の軌跡から様々な課題のコアセットを選択し、それらを並列に解決する。
1回の最適化ラウンドでは、SWE-Bench Proのパスレートが59%から78%に向上する。
- 参考スコア(独自算出の注目度): 51.55077364626896
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.
- Abstract(参考訳): AIエージェントは複雑な問題を解決するために、スキル、ツール、ワークフローの活用に依存している。
このハーネスを継続的に改善することは、新しいタスクに適応するために不可欠です。
しかし, 既存の最適化手法では, 一般に地中真正当性検証セットを必要とするが, 実際の配置設定ではそのようなラベル付きデータは取得が困難である。
この問題に対処するために,過去のトラジェクトリのみを用いてエージェントを最適化する自己教師型手法であるRetrospective Harness Optimization (RHO)を導入する。
具体的には、RHOは過去の軌跡から様々な課題のコアセットを選択し、それらを並列に解決する。
エージェントは、これらのロールアウトを自己検証と自己整合性を用いて分析し、候補ハーネス更新を生成し、最も効果的なものを選択する。
ソフトウェア工学、技術的作業、知識労働の3分野にわたるRHOを評価します。
特に、1回の最適化ラウンドでは、SWE-Bench Proのパスレートが59%から78%に向上する。
さらに、我々の分析では、RHOが事前の障害モードを効果的にターゲットしていることが示されている。
その結果、最適化されたハーネスはエージェントの行動パターンを変更し、長時間のセッション中に高い精度を維持する。
関連論文リスト
- ATLAS : Adaptive Self-Evolutionary Research Agent with Task-Distributed Multi-LLM Supporters [6.13905106667213]
ATLASは、軽量な研究エージェントを反復的に開発するタスク分散フレームワークである。
我々のコアアルゴリズムであるEvolving Direct Preference Optimization (EvoDPO)は、位相インデックス付き参照ポリシーを適応的に更新する。
その結果,ATLASは静的単一エージェントベースラインの安定性と性能を向上させることがわかった。
論文 参考訳(メタデータ) (2026-02-02T19:23:33Z) - Guided by Trajectories: Repairing and Rewarding Tool-Use Trajectories for Tool-Integrated Reasoning [65.10602992874787]
AutoTrajはツール使用トラジェクトリの修復と報酬によってTIRを自動的に学習するフレームワークである。
実世界のベンチマークの実験では、AutoTrajの有効性が示されている。
論文 参考訳(メタデータ) (2026-01-30T14:42:04Z) - ROAD: Reflective Optimization via Automated Debugging for Zero-Shot Agent Alignment [1.6968020497268546]
ROADは、最適化を検索ではなく動的デバッグ調査として扱う新しいフレームワークである。
道路はサンプリング効率が高く、成功率は5.6%、検索精度は3.8%向上している。
これらの結果は、ヒューマンエンジニアリングの失敗分析とパッチングのループを模倣することで、リソース集約的なトレーニングに代わる、実行可能なデータ効率の代替が可能になることを示唆している。
論文 参考訳(メタデータ) (2025-12-30T07:31:34Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。