論文の概要: Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes
- arxiv url: http://arxiv.org/abs/2508.11800v1
- Date: Fri, 15 Aug 2025 20:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.378856
- Title: Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes
- Title(参考訳): GRPOは確率的アウトカムに対する過信を誘発する
- Authors: Michael Bereket, Jure Leskovec,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has proven remarkably effective at improving the accuracy of language models in verifiable and deterministic domains like mathematics. Here, we examine if current RL methods are also effective at optimizing language models in verifiable domains with stochastic outcomes, like scientific experiments. Through applications to synthetic data and real-world biological experiments, we demonstrate that Group Relative Policy Optimization (GRPO) induces overconfident probability predictions for binary stochastic outcomes, while Proximal Policy Optimization (PPO) and REINFORCE Leave-One-Out (RLOO) yield well-calibrated models. We show that removing group standard normalization in GRPO fixes its miscalibration and provide a theoretical explanation for why normalization causes overconfidence. Our results provide new evidence against the use of standard normalization in GRPO and help pave the way for applications of RL for reasoning language models beyond deterministic domains.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,従来のRL法が,確率的結果を持つ検証可能な領域における言語モデルの最適化にも有効であるかどうかを検討する。
合成データや実世界の生物実験への応用を通して、グループ相対政策最適化(GRPO)が二項確率結果の過信確率予測を誘導し、PPO(Proximal Policy Optimization)とREINFORCEのLeave-One-Out(RLOO)がよく校正されたモデルが得られることを示した。
GRPOにおける群標準正規化の除去はその誤校正を正し、なぜ正規化が過信を引き起こすのかの理論的な説明を提供する。
この結果から,GRPOにおける標準正規化の使用に対する新たな証拠が得られ,決定論的領域を超えた言語モデル推論へのRLの適用の道を開いた。
関連論文リスト
- Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment [46.55132297735257]
本稿では,最適化過程における勾配流の制御にパイロット項を組み込んだ自己ガイド型直接選好最適化アルゴリズム,すなわちSGDPOを提案する。
本稿では,提案手法の詳細な理論的解析を行い,その動作機構を解明する。
論文 参考訳(メタデータ) (2025-05-18T14:19:23Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。