論文の概要: SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.12346v1
- Date: Sun, 18 May 2025 10:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.178653
- Title: SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization
- Title(参考訳): SEED-GRPO:不確実性を考慮したポリシー最適化のためのセマンティックエントロピー強化GRPO
- Authors: Minghan Chen, Guikun Chen, Wenguan Wang, Yi Yang,
- Abstract要約: 大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
- 参考スコア(独自算出の注目度): 57.69385990442078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit varying levels of confidence across input prompts (questions): some lead to consistent, semantically similar answers, while others yield diverse or contradictory outputs. This variation reflects LLM's uncertainty about the input prompt, a signal of how confidently the model understands a given problem. However, vanilla Group Relative Policy Optimization (GRPO) treats all prompts equally during policy updates, ignoring this important information about the model's knowledge boundaries. To address this limitation, we propose SEED-GRPO (Semantic Entropy EnhanceD GRPO), which explicitly measures LLMs' uncertainty of the input prompts semantic entropy. Semantic entropy measures the diversity of meaning in multiple generated answers given a prompt and uses this to modulate the magnitude of policy updates. This uncertainty-aware training mechanism enables dynamic adjustment of policy update magnitudes based on question uncertainty. It allows more conservative updates on high-uncertainty questions while maintaining the original learning signal on confident ones. Experimental results on five mathematical reasoning benchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, and OlympiadBench 48.0) demonstrate that SEED-GRPO achieves new state-of-the-art performance in average accuracy, validating the effectiveness of uncertainty-aware policy optimization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
この変化は LLM が入力プロンプトに対して不確実性を持っていることを反映しており、モデルが与えられた問題をいかに確実に理解しているかのシグナルである。
しかしながら、vanilla Group Relative Policy Optimization(GRPO)は、ポリシー更新中にすべてのプロンプトを平等に扱い、モデルの知識境界に関する重要な情報を無視します。
この制限に対処するため,SEED-GRPO(Semantic Entropy EnhanceD GRPO)を提案する。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
この不確実性対応トレーニング機構は、不確実性に基づくポリシー更新のマグニチュードの動的調整を可能にする。
信頼性の高い質問に対する元の学習信号を維持しながら、高い不確実性に関するより保守的なアップデートを可能にする。
5つの数学的推論ベンチマーク(AIME24 56.7、AMC 68.7、MATH 83.4、Minerva 34.2、OlympiadBench 48.0)の実験結果によると、SEED-GRPOは平均精度で新しい最先端のパフォーマンスを達成し、不確実性を考慮したポリシー最適化の有効性を検証する。
関連論文リスト
- Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文 参考訳(メタデータ) (2026-02-09T11:08:24Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Information-Consistent Language Model Recommendations through Group Relative Policy Optimization [3.969918993270049]
大規模言語モデル(LLM)は、金融、教育、医療、顧客サポートといったビジネス上重要な分野にますます導入されている。
LLMは、意味論的に等価であっても、プロンプトが小さな違いで表現されるとき、しばしば変動を示す。
一貫性を最適化するためのグループ相対政策最適化(GRPO)に基づく強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-14T21:52:31Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models [9.509429747913519]
大規模言語モデル(LLM)は、情報が漸進的に提示されるとき、多ターン会話において顕著なパフォーマンス劣化を被る。
本稿では,次のトークン分布に対するシャノンエントロピーによる内部不確かさの定量化を行うERGOを紹介する。
ERGOは言語とモデリングにおける可変性を採用し、不確実性を表現する。
論文 参考訳(メタデータ) (2025-10-15T20:33:08Z) - Conformal Information Pursuit for Interactively Guiding Large Language Models [64.39770942422288]
本稿では,クエリ数の最小化を目的としたシーケンシャルクエリ戦略について検討する。
そのような戦略の1つは情報探索(IP)であり、各反復で情報ゲインを最大化または同等に不確実性を最小化するクエリを選択する。
本稿では,コンフォーマル情報探索法(C-IP)を提案する。
論文 参考訳(メタデータ) (2025-07-04T03:55:39Z) - UProp: Investigating the Uncertainty Propagation of LLMs in Multi-Step Agentic Decision-Making [47.64013151246807]
大規模言語モデル(LLM)は、シーケンシャルな意思決定を含む安全クリティカルなアプリケーションに統合される。
既存のLLM Uncertainty Quantification (UQ) 法は、主にシングルターン質問応答形式のために設計されている。
LLMシーケンシャルな決定の不確かさを2つの部分に分解する原理的情報理論フレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-20T18:34:04Z) - Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [5.6672926445919165]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQメソッドは多くの場合、確率論的基盤を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Auto-Prompt Generation is Not Robust: Prompt Optimization Driven by Pseudo Gradient [50.15090865963094]
PertBenchは、幅広い入力摂動を含む包括的なベンチマークデータセットである。
我々の分析は、既存の即時生成戦略における重大な脆弱性を明らかにしている。
PGOは、摂動型を擬似次数次信号として活用する、勾配のないプロンプト生成フレームワークである。
論文 参考訳(メタデータ) (2024-12-24T06:05:08Z) - Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings [11.33157177182775]
大規模言語モデル(LLM)における正確な不確実性の定量化は、信頼性の高いデプロイメントに不可欠である。
LLMにおける意味的不確実性を測定するための現在の最先端手法は、厳密な双方向の包含基準に依存している。
本研究では,意味的不確実性のよりスムーズでロバストな推定を実現するためにセマンティックな埋め込みを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:41:46Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。