Fugu-MT 論文翻訳(概要): Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning

論文の概要: Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning

arxiv url: http://arxiv.org/abs/2602.22751v1
Date: Thu, 26 Feb 2026 08:40:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.600745
Title: Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning
Title（参考訳）: メタ認知的エントロピー校正によるRL推論の検証
Authors: Qiannian Zhao, Chen Yang, Jinhao Jing, Yunke Zhang, Xuhui Ren, Lu Yu, Shijie Zhang, Hongzhi Yin,
Abstract要約: 大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
参考スコア（独自算出の注目度）: 31.629261193485053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large reasoning models (LRMs) have emerged as a powerful paradigm for solving complex real-world tasks. In practice, these models are predominantly trained via Reinforcement Learning with Verifiable Rewards (RLVR), yet most existing outcome-only RLVR pipelines rely almost exclusively on a binary correctness signal and largely ignore the model's intrinsic uncertainty. We term this discrepancy the uncertainty-reward mismatch, under which high- and low-uncertainty solutions are treated equivalently, preventing the policy from "Know What You Know" and impeding the shift from optimizing for correct answers to optimizing effective reasoning paths. This limitation is especially critical in reasoning-centric tasks such as mathematics and question answering, where performance hinges on the quality of the model's internal reasoning process rather than mere memorization of final answers. To address this, we propose EGPO, a metacognitive entropy calibration framework that explicitly integrates intrinsic uncertainty into RLVR for enhancing LRMs. EGPO estimates per-sample uncertainty using a zero-overhead entropy proxy derived from token-level likelihoods and aligns it with extrinsic correctness through an asymmetric calibration mechanism that preserves correct reasoning while selectively regulating overconfident failures, thereby enabling stable and uncertainty-aware policy optimization. Moreover, EGPO recovers informative learning signals from otherwise degenerate group-based rollouts without modifying the verifier or reward definition. Extensive experiments across multiple benchmarks demonstrate that the proposed EGPO leads to substantial and consistent improvements in reasoning performance, establishing a principled path for advancing LRMs through metacognitive entropy calibration.
Abstract（参考訳）: 大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。実際には、これらのモデルはReinforcement Learning with Verifiable Rewards (RLVR)を通じて主にトレーニングされているが、既存の結果のみのRLVRパイプラインのほとんどはバイナリの正当性信号にのみ依存しており、モデルの本質的な不確実性はほとんど無視されている。我々は、この不確実性-逆ミスマッチを、高不確実性解と低不確実性解が同等に扱われ、政策が「知っていること」から妨げられ、正解の最適化から効果的な推論経路の最適化へのシフトを妨げている、と表現する。この制限は、数学や質問応答のような推論中心のタスクにおいて特に重要である。そこで我々は,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。 EGPOは、トークンレベルの可能性から導かれるゼロオーバーヘッドエントロピープロキシを用いてサンプルごとの不確実性を推定し、不確実な失敗を選択的に規制しながら正しい推論を保ち、安定かつ不確実なポリシー最適化を可能にする非対称キャリブレーション機構により、外在的正当性を調整する。さらに、EGPOは、検証や報酬の定義を変更することなく、グループベースのロールアウトから情報学習信号を復元する。複数のベンチマークにわたる広範囲な実験により、提案されたEGPOは推論性能を大幅に改善し、メタ認知的エントロピーキャリブレーションを通じてLEMを進化させるための原則的経路を確立した。

関連論文リスト

VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文参考訳（メタデータ） (2026-02-13T03:40:52Z)
Uncertainty-aware Generative Recommendation [52.0751022792023]
Uncertainty-aware Generative Recommendation (UGR)は、適応最適化のための重要な信号として不確実性を利用する統一的なフレームワークである。 UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定化させ、標準手法でよく見られる性能劣化を防ぐ。
論文参考訳（メタデータ） (2026-02-12T08:48:51Z)
R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文参考訳（メタデータ） (2026-02-06T15:17:11Z)
UCPO: Uncertainty-Aware Policy Optimization [12.847800921274617]
既存のLarge Language Models (LLM) はバイナリ決定空間と静的不確実性報酬によってアドバンテージバイアスに悩まされ、過剰な保守主義や過剰な自信を引き起こす。本稿では、不確実性に基づく報酬を取り入れた現在のRLパラダイムにおける報酬ハッキングと過信の根本原因を明らかにし、UnCertainty-Aware Policy Optimizationフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-30T07:07:42Z)
Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文参考訳（メタデータ） (2025-10-15T16:55:56Z)
Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-09-30T17:52:12Z)
CLUE: Neural Networks Calibration via Learning Uncertainty-Error alignment [7.702016079410588]
CLUE(Calibration via Learning Uncertainty-Error Alignment)は,学習中の予測不確かさを観測誤差と整合させる新しい手法である。 CLUEは,最先端のアプローチに対して,キャリブレーション品質と競争予測性能に優れることを示す。
論文参考訳（メタデータ） (2025-05-28T19:23:47Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。自然言語生成からコード生成領域への2つの最先端技術を適用する。これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2025-02-17T10:03:01Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文参考訳（メタデータ） (2023-10-06T17:57:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。