Process Supervision of Confidence Margin for Calibrated LLM Reasoning
Abstractの概要
本論文は、推論言語モデルのためのキャリブレーション対応強化学習フレームワークであるReinforcement Learning with Confidence Margin(RLCM)を提案している。最終回答の正誤のみを報酬とするのではなく、軽量な信頼度プローブとマージンベースの報酬を用いて、中間推論プレフィックスに対するプロセスレベルの監督を追加し、同一軌道内で正解に到達しやすいプレフィックスにはより高い信頼度を、そうでないプレフィックスにはより低い信頼度を促す。本手法はGRPOに基づき、GRPO-LEADデータセットを用いてDeepSeek-R1蒸留Qwen-7Bモデルで学習される。数学・コーディング・科学・論理の各ベンチマークにおいて、結果のみの強化学習ベースラインと比較して推論精度をほぼ維持しつつ、キャリブレーションの改善(ECEおよびPCEの低減)が報告されている。さらに、得られたキャリブレーション済み信頼度が、トークン使用量を削減するコンフォーマルリスク制御や信頼度重み付き回答集約などの下流応用を支援することが示されている。
新規性
主な新規性は、強化学習中のキャリブレーションのためのマージンベースのプロセス報酬にある。各ステップでの信頼度と正誤のポイントワイズスコアマッチングではなく、同一軌道内でより解きやすいプレフィックスとそうでないプレフィックスの間の信頼度ギャップを拡大するよう中間推論状態をランク付けする相対的な目的関数を用いる。この相対的目的関数は、オンポリシー学習中に中間隠れ状態から正解確率を推定する共同学習された軽量MLPプローブと組み合わされ、方策モデルへの勾配逆伝播なしにプロセスレベルのキャリブレーション監督を実現している。
成果
ドメイン内の数学ベンチマーク(MATH-500、AMC、OlympiadBench、AIME24/25)およびドメイン外タスク(LiveCodeBench、LogiQA、GPQA)において、RLCMは比較手法の中で最低の総合ECE(0.091)およびPCE(0.036)を達成し、競争力のある精度(総合0.618、GRPOの0.621に対して)を維持している。アブレーション研究では、プロセスレベルのマージン監督が最終ステップのみおよびBrierスタイルの変種よりもキャリブレーションにおいて優れることが示された。下流タスクでは、RLCMの信頼度がより トークン効率の良いコンフォーマルリスク制御と、より強力な信頼度重み付き集約(平均精度0.748、GRPOの0.723およびRLCRの0.675に対して)を可能にしている。
論文の注目点
- RLCMは、最終回答の報酬やポイントワイズスコアマッチングのみに依存するのではなく、中間バジェットプレフィックスとマージンベースの報酬を用いて推論軌道全体にわたる信頼度を監督し、より解きやすいプレフィックスとそうでないプレフィックスの間の信頼度ギャップを促進する。
- ドメイン内の数学およびドメイン外(コーディング・科学・論理)のベンチマークの両方において、RLCMはGRPO、RLCR、C²GSPGと比較して過信および期待キャリブレーション誤差を大幅に低減しつつ、競争力のある推論精度を維持している。
- キャリブレーション済みの信頼度推定値は、早期終了のためのよりトークン効率の良いコンフォーマルリスク制御や、ベースラインと比較してより強力な信頼度重み付き回答集約など、実用的な下流利益をもたらす。