論文の概要: Diversity-Aware Policy Optimization for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.23433v1
- Date: Thu, 29 May 2025 13:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.872226
- Title: Diversity-Aware Policy Optimization for Large Language Model Reasoning
- Title(参考訳): 大規模言語モデル推論のための多様性を考慮したポリシー最適化
- Authors: Jian Yao, Ran Cheng, Xingyu Wu, Jibin Wu, Kay Chen Tan,
- Abstract要約: 大規模言語モデルに対するRLに基づく学習における多様性の影響について検討する。
多様性を考慮したポリシー最適化手法を提案する。
本手法は4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現している。
- 参考スコア(独自算出の注目度): 30.460540027658173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning capabilities of large language models (LLMs) have advanced rapidly, particularly following the release of DeepSeek R1, which has inspired a surge of research into data quality and reinforcement learning (RL) algorithms. Despite the pivotal role diversity plays in RL, its influence on LLM reasoning remains largely underexplored. To bridge this gap, this work presents a systematic investigation into the impact of diversity in RL-based training for LLM reasoning, and proposes a novel diversity-aware policy optimization method. Across evaluations on 12 LLMs, we observe a strong positive correlation between the solution diversity and Potential at k (a novel metric quantifying an LLM's reasoning potential) in high-performing models. This finding motivates our method to explicitly promote diversity during RL training. Specifically, we design a token-level diversity and reformulate it into a practical objective, then we selectively apply it to positive samples. Integrated into the R1-zero training framework, our method achieves a 3.5 percent average improvement across four mathematical reasoning benchmarks, while generating more diverse and robust solutions.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は、特にDeepSeek R1のリリース後に急速に進歩し、データ品質と強化学習(RL)アルゴリズムの研究が急増した。
多様性はRLにおいて重要な役割を担っているが、LLM推論に対する影響は未解明のままである。
このギャップを埋めるために、本研究は、LLM推論のためのRLベースのトレーニングにおける多様性の影響を体系的に調査し、新しい多様性を考慮したポリシー最適化手法を提案する。
12個のLLMの評価において, 解の多様性と k におけるポテンシャル(LLMの推理ポテンシャルを定量化する新しい計量)との強い正の相関を高い性能モデルで観測した。
この発見は、RLトレーニング中に多様性を明示的に促進する手法の動機付けとなる。
具体的には,トークンレベルの多様性を設計し,それを実用目的に再構成し,正のサンプルに選択的に適用する。
R1-ゼロのトレーニングフレームワークに統合され、4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現し、より多様で堅牢なソリューションを生成する。
関連論文リスト
- R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO [91.25793883692036]
我々は、強化学習(RL)を通してMLLMの推論能力を高めることを目的としている。
本稿では,これらの問題に対処する新しいRL手法であるShare-GRPOを提案する。
さらに、Share-GRPOは、利点計算中の報酬情報も共有している。
論文 参考訳(メタデータ) (2025-05-22T13:39:32Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本稿では,Multimodal Large Language Models(MLLM)における強化学習(RL)に基づく推論の最近の進歩を体系的にレビューする。
本稿では,2つの主要なRLパラダイム,値モデルフリーおよび値モデルベース手法に注目し,推論軌道の最適化とマルチモーダル情報の整合化により,RLが推論能力を高める方法を分析する。
本稿では,ベンチマークデータセット,評価プロトコル,現在の制限について概観し,スパース報酬,非効率なクロスモーダル推論,実世界の展開制約といった課題に対処するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2025-04-30T03:14:28Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Guiding Reinforcement Learning Using Uncertainty-Aware Large Language Models [1.2233495442213964]
大きな言語モデル(LLMs)は、RLサンプルの非効率を軽減し、人間のトレーナーを置き換える可能性のある代替手段を提供する。
LLMアドバイスの信頼性を高めるためにモンテカルロ・ドロップアウトを用いた校正誘導システムにより,この制限に対処する。
また、動的モデル平均エントロピーに基づく新しいRLポリシー形成手法を開発し、ガイダンスの不確実性に応じてLLMがRLポリシーに与える影響を調整する。
論文 参考訳(メタデータ) (2024-11-15T22:00:29Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。