論文の概要: ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02150v1
- Date: Mon, 02 Feb 2026 14:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.205772
- Title: ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning
- Title(参考訳): ECHO: テスト時間強化学習のためのエントロピー信頼ハイブリッド最適化
- Authors: Chu Zhao, Enneng Yang, Yuting Liu, Jianzhe Zhao, Guibing Guo,
- Abstract要約: テストタイム強化学習は、繰り返しロールアウトによって候補回答を生成し、多数決によって構築された擬似ラベルを使用してオンライン更新を行う。
オーバヘッドを低減し、探索を改善するために、事前の作業では、キーノードで推論プレフィックスと分岐を共有するツリー構造化ロールアウトが導入され、サンプリング効率が向上した。
本稿では,これらの問題に対処するために,エントロピー信頼ハイブリッドグループ相対政策最適化(ECHO)を提案する。
ECHOは、複数の数学的および視覚的推論ベンチマークにおいて一貫した利得を達成し、限定的なロールアウト予算の下でより効果的に一般化する。
- 参考スコア(独自算出の注目度): 22.70868498736932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time reinforcement learning generates multiple candidate answers via repeated rollouts and performs online updates using pseudo-labels constructed by majority voting. To reduce overhead and improve exploration, prior work introduces tree structured rollouts, which share reasoning prefixes and branch at key nodes to improve sampling efficiency. However, this paradigm still faces two challenges: (1) high entropy branching can trigger rollout collapse, where the branching budget concentrates on a few trajectories with consecutive high-entropy segments, rapidly reducing the number of effective branches; (2) early pseudo-labels are noisy and biased, which can induce self-reinforcing overfitting, causing the policy to sharpen prematurely and suppress exploration. To address these issues, we propose Entropy Confidence Hybrid Group Relative Policy Optimization (ECHO). During rollout, ECHO jointly leverages local entropy and group level confidence to adaptively control branch width, and further introduces online confidence-based pruning to terminate persistently low confidence branches, avoiding high entropy traps and mitigating collapse. During policy updates, ECHO employs confidence adaptive clipping and an entropy confidence hybrid advantage shaping approach to enhance training robustness and mitigate early stage bias. Experiments demonstrate that ECHO achieves consistent gains on multiple mathematical and visual reasoning benchmarks, and generalizes more effectively under a limited rollout budget.
- Abstract(参考訳): テスト時間強化学習は、繰り返しロールアウトによって複数の候補回答を生成し、多数決によって構築された擬似ラベルを使用してオンライン更新を行う。
オーバヘッドを低減し、探索を改善するために、事前の作業では、キーノードで推論プレフィックスと分岐を共有するツリー構造化ロールアウトが導入され、サンプリング効率が向上した。
しかし、このパラダイムは、(1)高エントロピー分岐はロールアウト崩壊を引き起こす可能性があり、そこでは、分岐予算は、連続した高エントロピーセグメントを持ついくつかの軌道に集中し、有効ブランチの数を急速に減少させる。
これらの課題に対処するため,Entropy Confidence Hybrid Group Relative Policy Optimization (ECHO)を提案する。
ロールアウト中、ECHOは局所エントロピーとグループレベルの信頼性を併用して分岐幅を適応的に制御し、オンライン信頼に基づくプルーニングを導入し、持続的に低い信頼性ブランチを終了させ、高いエントロピートラップを回避し、崩壊を緩和する。
ポリシー更新の間、ECHOは、トレーニングの堅牢性を高め、初期段階バイアスを軽減するために、信頼度適応型クリッピングとエントロピー型ハイブリット・アドバンスト整形アプローチを採用している。
実験により、ECHOは複数の数学的および視覚的推論ベンチマークにおいて一貫した利得を達成し、限定的なロールアウト予算の下でより効果的に一般化することを示した。
関連論文リスト
- No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning [21.237273221334963]
ECHOは、同期された共進化ループを通じてポリシーと批判を共同で最適化するフレームワークである。
ECHOは、より安定したトレーニングと、オープンワールド環境全体にわたる長期タスクの成功をもたらす。
論文 参考訳(メタデータ) (2026-01-11T07:29:08Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Safe, Efficient, and Robust Reinforcement Learning for Ranking and Diffusion Models [2.231476498067998]
論文は、強化学習手法が安全で、サンプル効率が高く、堅牢であるようにどのように設計できるかを調査する。
コンテキスト帯域RLの統一的な視点から判断されたこの作業は、ランキングとレコメンデーション、テキストから画像への拡散モデルという2つの主要なアプリケーション領域に対処する。
論文 参考訳(メタデータ) (2025-10-17T08:37:38Z) - Confidence-gated training for efficient early-exit neural networks [49.78598138251519]
初期段階のニューラルネットワークは、中間層での確実な予測を可能にすることにより、推論コストを低減する。
我々は,前回の出口が故障した場合のみ,より深い出口からの勾配を条件的に伝播させるパラダイムである信頼性訓練(CGT)を提案する。
論文 参考訳(メタデータ) (2025-09-22T15:18:21Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。