論文の概要: UCPO: Uncertainty-Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.22648v1
- Date: Fri, 30 Jan 2026 07:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.288685
- Title: UCPO: Uncertainty-Aware Policy Optimization
- Title(参考訳): UCPO:不確かさを意識した政策最適化
- Authors: Xianzhou Zeng, Jing Huang, Chunmei Xie, Gongrui Nan, Siye Chen, Mengyu Lu, Weiqi Xiong, Qixuan Zhou, Junhao Zhang, Qiang Zhu, Yadong Li, Xingzhong Xu,
- Abstract要約: 既存のLarge Language Models (LLM) はバイナリ決定空間と静的不確実性報酬によってアドバンテージバイアスに悩まされ、過剰な保守主義や過剰な自信を引き起こす。
本稿では、不確実性に基づく報酬を取り入れた現在のRLパラダイムにおける報酬ハッキングと過信の根本原因を明らかにし、UnCertainty-Aware Policy Optimizationフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.847800921274617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key to building trustworthy Large Language Models (LLMs) lies in endowing them with inherent uncertainty expression capabilities to mitigate the hallucinations that restrict their high-stakes applications. However, existing RL paradigms such as GRPO often suffer from Advantage Bias due to binary decision spaces and static uncertainty rewards, inducing either excessive conservatism or overconfidence. To tackle this challenge, this paper unveils the root causes of reward hacking and overconfidence in current RL paradigms incorporating uncertainty-based rewards, based on which we propose the UnCertainty-Aware Policy Optimization (UCPO) framework. UCPO employs Ternary Advantage Decoupling to separate and independently normalize deterministic and uncertain rollouts, thereby eliminating advantage bias. Furthermore, a Dynamic Uncertainty Reward Adjustment mechanism is introduced to calibrate uncertainty weights in real-time according to model evolution and instance difficulty. Experimental results in mathematical reasoning and general tasks demonstrate that UCPO effectively resolves the reward imbalance, significantly improving the reliability and calibration of the model beyond their knowledge boundaries.
- Abstract(参考訳): 信頼に足る大規模言語モデル(LLM)を構築する鍵は、それらに固有の不確実性表現能力を持たせることで、彼らの高度なアプリケーションを制限する幻覚を軽減することである。
しかし、GRPOのような既存のRLパラダイムは、二項決定空間と静的不確実性報酬のためにしばしばアドバンテージバイアスに悩まされ、過剰な保守主義または過剰な自信を引き起こす。
この課題に対処するため、本稿では、不確実性に基づく報酬を取り入れた現在のRLパラダイムにおける報酬ハッキングと過信の根本原因を明らかにし、UnCertainty-Aware Policy Optimization (UCPO) フレームワークを提案する。
UCPOは、決定論的かつ不確実なロールアウトを分離し、独立に正規化するために、三項アドバンテージデカップリングを採用している。
さらに、モデル進化とインスタンスの難易度に応じて、リアルタイムに不確かさ重みを校正する動的不確かさ補正機構を導入する。
数学的推論と一般的なタスクの実験結果は、UCPOが報酬の不均衡を効果的に解決し、知識境界を超えてモデルの信頼性と校正を著しく改善することを示している。
関連論文リスト
- BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - ProbFM: Probabilistic Time Series Foundation Model with Uncertainty Decomposition [0.12489632787815884]
Time Series Foundation Models (TSFMs) はゼロショット財務予測のための有望なアプローチとして登場した。
現在のアプローチでは、制限的な分布仮定に依存したり、異なる不確実性の源を詳述したり、原則化された校正機構が欠如している。
本稿では,Deep Evidential Regression (DER) を利用した変圧器を用いた新しい確率的フレームワーク ProbFM を提案する。
論文 参考訳(メタデータ) (2026-01-15T17:02:06Z) - FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning [42.18368547352248]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして登場した。
欠陥陽性のロールアウトに対して,パラメータフリーの報酬ペナルティを示すFlawed-Aware Policy Optimization (FAPO)を提案する。
FAPOは広い領域で有効であり、トークン予算を増やすことなく、結果の正しさ、プロセスの信頼性、トレーニング安定性を向上させる。
論文 参考訳(メタデータ) (2025-10-26T05:49:38Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。