論文の概要: RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs
- arxiv url: http://arxiv.org/abs/2505.13697v1
- Date: Mon, 19 May 2025 19:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.508584
- Title: RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs
- Title(参考訳): 名前のみのRL : LLMのRLポストトレーニングにおける構造推定の分析
- Authors: Soumya Rani Samineni, Durgesh Kalwar, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati,
- Abstract要約: 近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
- 参考スコア(独自算出の注目度): 14.78605805191225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning-based post-training of large language models (LLMs) has recently gained attention, particularly following the release of DeepSeek R1, which applied GRPO for fine-tuning. Amid the growing hype around improved reasoning abilities attributed to RL post-training, we critically examine the formulation and assumptions underlying these methods. We start by highlighting the popular structural assumptions made in modeling LLM training as a Markov Decision Process (MDP), and show how they lead to a degenerate MDP that doesn't quite need the RL/GRPO apparatus. The two critical structural assumptions include (1) making the MDP states be just a concatenation of the actions-with states becoming the context window and the actions becoming the tokens in LLMs and (2) splitting the reward of a state-action trajectory uniformly across the trajectory. Through a comprehensive analysis, we demonstrate that these simplifying assumptions make the approach effectively equivalent to an outcome-driven supervised learning. Our experiments on benchmarks including GSM8K and Countdown using Qwen-2.5 base models show that iterative supervised fine-tuning, incorporating both positive and negative samples, achieves performance comparable to GRPO-based training. We will also argue that the structural assumptions indirectly incentivize the RL to generate longer sequences of intermediate tokens-which in turn feeds into the narrative of "RL generating longer thinking traces." While RL may well be a very useful technique for improving the reasoning abilities of LLMs, our analysis shows that the simplistic structural assumptions made in modeling the underlying MDP render the popular LLM RL frameworks and their interpretations questionable.
- Abstract(参考訳): 大規模言語モデル(LLMs)の強化学習に基づくポストトレーニングは、特にGRPOを微調整に応用したDeepSeek R1のリリース以降、最近注目を集めている。
RLポストトレーニングによる推論能力の向上に関する誇大広告が増えている中、これらの手法の定式化と仮定を批判的に検討した。
まず,LLMトレーニングをマルコフ決定プロセス(MDP)としてモデル化する際の一般的な構造的前提を強調し,RL/GRPO装置を全く必要としない退化MDPにどのように導かれるかを示す。
2つの重要な構造的前提は、(1)MDP状態が、文脈ウィンドウとなる状態と、LSMのトークンとなる行動との結合に過ぎず、(2)状態-行動軌道の報酬を軌跡全体に均一に分割することである。
包括的分析により、これらの単純化された仮定が、結果駆動型教師あり学習と効果的に等価であることを示す。
Qwen-2.5 ベースモデルを用いた GSM8K や Countdown などのベンチマーク実験により,正と負の両方のサンプルを反復的に教師付き微調整することで,GRPO ベースのトレーニングに匹敵する性能が得られることが示された。
また、構造的仮定はRLを間接的にインセンティブを与えて、中間トークンの長いシーケンスを生成します。
RL は LLM の推論能力を向上させるための非常に有用な手法であると考えられるが、基礎となる MDP をモデル化する際の単純な構造的仮定は、人気のある LLM RL フレームワークとそれらの解釈を疑問視するものである。
関連論文リスト
- Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [7.78764814568908]
まず,MLLM画像分類のためのCRS-RLを提案する。
RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。
No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文 参考訳(メタデータ) (2025-03-17T06:28:25Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。