論文の概要: Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning
- arxiv url: http://arxiv.org/abs/2603.10588v1
- Date: Wed, 11 Mar 2026 09:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.882106
- Title: Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning
- Title(参考訳): LLMアライメントは本当に多様性を必要とするか? : モーラル推論のためのRLVR法の適用に関する実証的研究
- Authors: Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie,
- Abstract要約: 本研究では,アライメントタスクにおいて期待される報酬最大化手法に対して,分布マッチング手法が有意な優位性を示すものではないことを示す。
その結果,アライメントタスクは本質的に多様性保存アルゴリズムを必要としないことが示唆され,標準報酬最大化RLVR法は明確な多様性機構を持たずに道徳的推論に効果的に移行できることがわかった。
- 参考スコア(独自算出の注目度): 44.68959659268472
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in logical reasoning tasks, yet whether large language model (LLM) alignment requires fundamentally different approaches remains unclear. Given the apparent tolerance for multiple valid responses in moral reasoning, a natural hypothesis is that alignment tasks inherently require diversity-seeking distribution-matching algorithms rather than reward-maximizing policy-based methods. We conduct the first comprehensive empirical study comparing both paradigms on MoReBench. To enable stable RLVR training, we build a rubric-grounded reward pipeline by training a Qwen3-1.7B judge model. Contrary to our hypothesis, we find that distribution-matching approaches do not demonstrate significant advantages over reward-maximizing methods as expected on alignment tasks. Through semantic visualization mapping high-reward responses to semantic space, we demonstrate that moral reasoning exhibits more concentrated high-reward distributions than mathematical reasoning, where diverse solution strategies yield similarly high rewards. This counter-intuitive finding explains why mode-seeking optimization proves equally or more effective for alignment tasks. Our results suggest that alignment tasks do not inherently require diversity-preserving algorithms, and standard reward-maximizing RLVR methods can effectively transfer to moral reasoning without explicit diversity mechanisms.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は論理的推論タスクにおいて顕著な成功を収めているが、大規模言語モデル(LLM)のアライメントが根本的に異なるアプローチを必要とするかどうかは不明だ。
道徳的推論における複数の有効な応答に対する明らかな許容性を考えると、自然な仮説は、アライメントタスクは、報酬を最大化するポリシーベースの手法ではなく、本質的に多様性を求める分布マッチングアルゴリズムを必要とするということである。
両パラダイムをMoReBench上で比較した最初の包括的実証的研究を行う。
安定したRLVRトレーニングを実現するため、我々はQwen3-1.7Bジャッジモデルをトレーニングすることで、ルーリックグラウンドの報酬パイプラインを構築した。
我々の仮説とは対照的に、分配マッチングアプローチはアライメントタスクにおいて期待される報酬最大化手法よりも大きな利点を示さない。
意味空間への高次応答のマッピングを通じて、道徳的推論は数学的推論よりも集中した高次分布を示し、多様な解法戦略が同様に高い報酬をもたらすことを示した。
この反直感的な発見は、なぜモード探索最適化がアライメントタスクに等しく、より効果的かを説明する。
その結果,アライメントタスクは本質的に多様性保存アルゴリズムを必要としないことが示唆され,標準報酬最大化RLVR法は明確な多様性機構を持たずに道徳的推論に効果的に移行できることがわかった。
関連論文リスト
- Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。