論文の概要: Why Semantic Entropy Fails: Geometry-Aware and Calibrated Uncertainty for Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.21801v1
- Date: Wed, 20 May 2026 22:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.018869
- Title: Why Semantic Entropy Fails: Geometry-Aware and Calibrated Uncertainty for Policy Optimization
- Title(参考訳): セマンティックエントロピーが失敗する理由:政策最適化のための幾何学的認識と校正的不確実性
- Authors: Zheyuan Zhang, Kaiwen Shi, Han Bao, Zehong Wang, Tianyi Ma, Yanfang Ye,
- Abstract要約: 本研究では、不確実性信号を勾配のばらつきや学習信号の品質を特徴づけ、制御するメカニズムとして解釈する最初の原理的定式化を提案する。
この分析により,幾何認識型校正政策最適化(GCPO)を提案する。これは,幾何認識尺度を統合して,報酬に基づく校正による意味的不一致を捉え,不確実性を学習信号強度と整合させる新しいフレームワークである。
- 参考スコア(独自算出の注目度): 29.58498898211018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training has become central to improving reasoning and alignment in large language models, where critic-free models enable scalable learning from model-generated outputs but lack principled mechanisms to distinguish informative from noisy signals. Recent approaches leverage response-level measures as uncertainty signals to regulate group-based optimization methods such as GRPO. Yet their empirical success remains unstable and unclear in how they influence optimization dynamics. In this paper, we provide, to our knowledge, the first principled formulation that interprets uncertainty signals as mechanisms for characterizing and regulating gradient variance and learning signal quality. Based on both empirical and theoretical analysis, we identify two critical gaps of current entropy-based estimators: The anisotropic gap and The calibration gap. Motivated by this analysis, we propose Geometric-aware Calibrated Policy Optimization (GCPO), a novel framework integrating geometry-aware measures to capture semantic disagreement with reward-based calibration to align uncertainty with learning signal strength. Experiments on multiple benchmarks show that our approach more faithfully tracks gradient variability and consistently improves post-training performance. Our results highlight the importance of designing uncertainty signals that are aligned with optimization dynamics, offering a principled perspective for robust post-training.
- Abstract(参考訳): 批判のないモデルは、モデル生成出力からスケーラブルな学習を可能にするが、ノイズ信号と情報伝達を区別する原理的なメカニズムが欠如している。
近年のアプローチでは,不確実性信号として応答レベル対策を活用し,GRPOなどのグループベース最適化手法を規制している。
しかし、彼らの経験的成功は依然として不安定であり、最適化力学にどのように影響するかは定かではない。
本稿では,不確実性信号を勾配のばらつきや学習信号の品質を特徴づけ,制御するメカニズムとして解釈する最初の原理的定式化について述べる。
実験的および理論的解析の両方に基づいて、現在のエントロピーに基づく推定器の2つの臨界ギャップを同定する。
この分析により,幾何認識型校正政策最適化(GCPO)を提案する。これは,幾何認識尺度を統合して,報酬に基づく校正による意味的不一致を捉え,不確実性を学習信号強度と整合させる新しいフレームワークである。
複数のベンチマークの実験により、我々のアプローチは勾配変動をより忠実に追跡し、トレーニング後のパフォーマンスを継続的に改善することを示した。
この結果から,最適化力学に整合した不確実性信号の設計の重要性が強調された。
関連論文リスト
- Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning [12.77713716713937]
一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。
勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。
さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:09:28Z) - Bi-level Meta-Policy Control for Dynamic Uncertainty Calibration in Evidential Deep Learning [11.953394478206581]
最適不確実性モデリングのためのKL分散係数とディリクレ事前強度を調整する動的メタ学習フレームワークであるMeta-Policy Controller (MPC)を提案する。
MPCはモデル予測の信頼性とキャリブレーションを大幅に向上させ、信頼性に基づくサンプル拒絶後の不確実性校正、予測精度、性能保持を改善する。
論文 参考訳(メタデータ) (2025-10-10T02:39:26Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances [3.701656361145375]
線形二次規制 (LQR) 戦略のオフライン設計を不確実な乱れを伴う解析を行う。
我々のアプローチは、適応動的プログラミングの基本的な学習ベースのフレームワークの上に構築されている。
論文 参考訳(メタデータ) (2025-09-20T17:14:27Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。