論文の概要: HarnessForge: Joint Harness and Policy Evolution for Adaptive Agent Systems
- arxiv url: http://arxiv.org/abs/2606.01779v1
- Date: Mon, 01 Jun 2026 07:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.476034
- Title: HarnessForge: Joint Harness and Policy Evolution for Adaptive Agent Systems
- Title(参考訳): HarnessForge:適応エージェントシステムのための共同ハーネスとポリシーの進化
- Authors: Mingju Chen, Can Lv, Guibin Zhang, Heng Chang, Shiji Zhou,
- Abstract要約: LLMエージェントは、多種多様なタスクレジームで運用されることがますます期待されている。
本稿では,エージェントシステムを進化させるメタ適応フレームワークであるHarnessForgeを提案する。
HarnessForgeはエージェントシステムをハーネスのペアとして定式化し、安定した適応空間を定義する。
- 参考スコア(独自算出の注目度): 21.429473391187287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained underlying reasoning policies, full-system adaptation remains insufficiently characterized. The adaptation space between structure and execution is rarely made explicit, and the compatibility between the external harness and the internal reasoner is not optimized jointly. We propose HarnessForge, a meta-adaptive framework for evolving LLM agent systems. HarnessForge formulates an agent system as a harness--policy pair, defining a stable adaptation space that separates harness-level execution structure from policy-level reasoning behavior. It then performs harness--policy co-evolution through fault-guided harness tailoring and harness-conditioned policy alignment. Experiments across five benchmarks from diverse domains show that HarnessForge consistently improves both Qwen3-4B and Qwen3-8B backbones, outperforming harness-only and policy-only baselines with gains of up to 12.0\% over the strongest baseline and achieving favorable rollout-efficiency tradeoffs, demonstrating that harness--policy co-evolution is effective, and that executable compatibility between the harness and reasoning policy is essential for agent-system adaptation. The code is available at https://github.com/mingju-c/HarnessForge.
- Abstract(参考訳): LLMエージェントは、異なる実行パラダイムを必要とする異種タスクレシスタンスで運用されることがますます期待されている。
これは、固定されたエージェントシステムに挑戦し、分離されたコンポーネント更新を超えてシステムレベルのメタ適応を動機付けます。
既存の作業は外部のハーネスを適応させたり、根底にある推論ポリシーを訓練したりしているが、完全なシステム適応は依然として不十分である。
構造と実行の間の適応空間を明示することは滅多になく、外部ハーネスと内部推論との整合性は共同で最適化されない。
本稿では,LLMエージェントシステムを進化させるメタ適応フレームワークであるHarnessForgeを提案する。
HarnessForgeはエージェントシステムをハーネスのペアとして定式化し、ポリシーレベルの推論動作からハーネスレベルの実行構造を分離する安定した適応空間を定義する。
その後、フォールトガイド付きハーネスの調整とハーネス条件付きポリシーアライメントを通じて、ハーネス-政治共進化を行う。
さまざまなドメインの5つのベンチマークで実験したところ、HarnessForgeはQwen3-4BとQwen3-8Bのバックボーンを一貫して改善し、ハーネスのみのベースラインとポリシーのみのベースラインを上回り、最強のベースライン上で最大12.0\%向上し、良好なロールアウト効率のトレードオフを実現した。
コードはhttps://github.com/mingju-c/HarnessForgeで公開されている。
関連論文リスト
- Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams [41.672123164003814]
このようなストリームのためのフレームワークとシステムであるAdaptive Auto-Harnessを紹介します。
オラクルハーネスとのギャップを進化損失と適応損失に分解する。
予測市場、セキュリティ競争、イベント予測ストリームで、既存の5つのオートハーネスベースラインを上回ります。
論文 参考訳(メタデータ) (2026-06-01T06:51:14Z) - Stop Comparing LLM Agents Without Disclosing the Harness [26.11566311050969]
このポジションペーパーでは、同等のフロンティア能力を持つモデル間で評価された長時間水平タスクに対して、エージェント実行ハーネスは、ラップするモデルよりもエージェントパフォーマンスの強い決定要因である、と論じている。
本稿では,BingConstraint分散の形式化と保護を行う。この体制では,性能はモデル選択よりもハーネス構成により制御され,現在の評価プロトコルはモデル改善にハーネスレベルの利得を体系的に誤っている。
論文 参考訳(メタデータ) (2026-05-07T15:24:59Z) - PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - GRASP: Gradient Realignment via Active Shared Perception for Multi-Agent Collaborative Optimization [41.52202306408042]
非定常性は、同時ポリシー更新によって発生し、持続的な環境変動を引き起こす。
本稿では,一般ベルマン均衡を政策進化の安定目標として定義する新しい枠組みである,アクティブ共有知覚(GRASP)によるRealignmentを提案する。
論文 参考訳(メタデータ) (2026-04-01T10:26:22Z) - Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive [0.0]
AIシステムは、標準によって管理されるという前提の下で、ハイステークな状況にますますデプロイされている。
本稿では,最適化システムに対して仮定が正式に無効であることを示す。
論文 参考訳(メタデータ) (2026-02-26T17:16:17Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。