論文の概要: No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning
- arxiv url: http://arxiv.org/abs/2601.06794v1
- Date: Sun, 11 Jan 2026 07:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.993789
- Title: No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning
- Title(参考訳): No more Stale Feedback: オープンワールドエージェント学習のための共進化的批判
- Authors: Zhicong Li, Lingjie Jiang, Yulan Hu, Xingchen Zeng, Yixia Li, Xiangwen Zhang, Guanhua Chen, Zheng Pan, Xin Li, Yong Liu,
- Abstract要約: ECHOは、同期された共進化ループを通じてポリシーと批判を共同で最適化するフレームワークである。
ECHOは、より安定したトレーニングと、オープンワールド環境全体にわたる長期タスクの成功をもたらす。
- 参考スコア(独自算出の注目度): 21.237273221334963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Critique-guided reinforcement learning (RL) has emerged as a powerful paradigm for training LLM agents by augmenting sparse outcome rewards with natural-language feedback. However, current methods often rely on static or offline critic models, which fail to adapt as the policy evolves. In on-policy RL, the agent's error patterns shift over time, causing stationary critics to become stale and providing feedback of diminishing utility. To address this, we introduce ECHO (Evolving Critic for Hindsight-Guided Optimization)}, a framework that jointly optimizes the policy and critic through a synchronized co-evolutionary loop. ECHO utilizes a cascaded rollout mechanism where the critic generates multiple diagnoses for an initial trajectory, followed by policy refinement to enable group-structured advantage estimation. We address the challenge of learning plateaus via a saturation-aware gain shaping objective, which rewards the critic for inducing incremental improvements in high-performing trajectories. By employing dual-track GRPO updates, ECHO ensures the critic's feedback stays synchronized with the evolving policy. Experimental results show that ECHO yields more stable training and higher long-horizon task success across open-world environments.
- Abstract(参考訳): 批判誘導型強化学習 (RL) は, 自然言語フィードバックによる疎結果報酬を増大させることにより, LLMエージェントを訓練するための強力なパラダイムとして登場した。
しかし、現在の手法は、しばしば静的またはオフラインの批評家モデルに依存しており、ポリシーが進化するにつれて適応しない。
政治上のRLでは、エージェントのエラーパターンは時間とともに変化し、定常的な批評家が不安定になり、実用性を低下させるフィードバックを提供する。
この問題に対処するため,我々はECHO(Evolving Critic for Hindsight-Guided Optimization)を紹介した。
ECHOは、批判者が初期軌道に対して複数の診断を発生させるカスケードロールアウト機構を使用し、その後、ポリシーの洗練によりグループ構造的優位性の推定が可能となる。
本研究では,高度軌跡の漸進的な改善を図った批評家に報いる,飽和型利得形成目標による高原学習の課題に対処する。
デュアルトラックのGRPOアップデートを採用することで、ECHOは、批評家のフィードバックが進化するポリシーと同期し続けることを保証します。
実験の結果、ECHOはより安定したトレーニングと、オープンワールド環境全体にわたる長期タスクの成功をもたらすことが示された。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization [9.358876832727239]
自己教師付き強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための有望なアプローチを示す
従来の手法では,長期のトレーニングにおいて,パフォーマンスが急激に低下する「政治崩壊」という,致命的な障害モードに悩まされていることがわかった。
我々は、ゆっくりと進化する運動量モデルを利用して安定したトレーニングターゲットを提供するフレームワークであるM-GRPOを紹介する。
また,低エントロピートラジェクトリを動的に振る舞うIQR(Interquartile Range)に基づく適応フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2025-12-15T08:07:23Z) - CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic [24.371889836599138]
CriticSearchは詳細なクレジット割り当てフレームワークで、振り返りの批判メカニズムを通じて、密集したターンレベルのフィードバックを提供する。
様々なマルチホップ推論ベンチマークの実験結果は、CriticSearchが既存のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-15T11:06:57Z) - Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.60378227969643]
より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-10-28T11:37:01Z) - Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。
RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。
より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-27T12:10:57Z) - The Actor-Critic Update Order Matters for PPO in Federated Reinforcement Learning [10.727328530242461]
我々は、異なるクライアントからの批判者の分散を取り除くために、更新順序(まずアクタ、次に批判)を反転させるFedRACを提案する。
実験結果から,提案アルゴリズムはより高い累積報酬を得て,より高速に5つの実験に収束することが示唆された。
論文 参考訳(メタデータ) (2025-06-02T02:20:22Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [2.743898388459522]
深層強化学習(RL)では、学習速度は安定性と性能の両方に重大な影響を及ぼすが、環境と政策が進化するにつれて、トレーニング中に最適な価値がシフトする。
標準崩壊スケジューラは単調収束を仮定し、しばしばこれらのダイナミクスと不一致し、早めまたは遅れた調整をもたらす。
LRRLは、学習手順ではなく、政策性能に基づいて動的に学習率を選択するメタ学習手法である。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。