Fugu-MT 論文翻訳(概要): On the Mechanism of Reasoning Pattern Selection in Reinforcement Learning for Language Models

論文の概要: On the Mechanism of Reasoning Pattern Selection in Reinforcement Learning for Language Models

arxiv url: http://arxiv.org/abs/2506.04695v1
Date: Thu, 05 Jun 2025 07:17:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.578021
Title: On the Mechanism of Reasoning Pattern Selection in Reinforcement Learning for Language Models
Title（参考訳）: 言語モデルの強化学習におけるパターン選択の推論機構について
Authors: Xingwu Chen, Tianle Li, Difan Zou,
Abstract要約: 検証リワード(RLVR)を用いた強化学習の体系的研究について述べる。 RLVR学習モデルでは,高精度推論パターンが優先的に採用されている。我々はRLVRの収束とトレーニングのダイナミクスに関する理論的解析を開発する。
参考スコア（独自算出の注目度）: 17.36077163968198
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) has demonstrated remarkable success in enhancing model capabilities, including instruction-following, preference learning, and reasoning. Yet despite its empirical successes, the mechanisms by which RL improves reasoning abilities remain poorly understood. We present a systematic study of Reinforcement Learning with Verifiable Rewards (RLVR), showing that its primary benefit comes from optimizing the selection of existing reasoning patterns. Through extensive experiments, we demonstrate that RLVR-trained models preferentially adopt high-success-rate reasoning patterns while mostly maintaining stable performance on individual patterns. We further develop theoretical analyses on the convergence and training dynamics of RLVR based on a simplified question-reason-answer model. We study the gradient flow and show that RLVR can indeed find the solution that selects the reason pattern with the highest success rate. Besides, our theoretical results reveal two distinct regimes regarding the convergence of RLVR training: (1) rapid convergence for models with relatively strong initial reasoning capabilities versus (2) slower optimization dynamics for weaker models. Furthermore, we show that the slower optimization for weaker models can be mitigated by applying the supervised fine-tuning (SFT) before RLVR, when using a feasibly high-quality SFT dataset. We validate the theoretical findings through extensive experiments. This work advances our theoretical understanding of RL's role in LLM fine-tuning and offers insights for further enhancing reasoning capabilities.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、指示追従、選好学習、推論などのモデル能力の向上に顕著な成功を収めている。しかし、その実証的な成功にもかかわらず、RLが推論能力を改善するメカニズムはいまだに理解されていない。本稿では,RLVR(Reinforcement Learning with Verifiable Rewards)の体系的研究を行い,既存の推論パターンの選択を最適化することによる主な利点を示す。広範にわたる実験により、RLVR学習モデルでは、個々のパターンに対する安定した性能を維持しつつ、高い精度の推論パターンを優先的に採用することが実証された。さらに, 簡易質問応答モデルに基づくRLVRの収束とトレーニングのダイナミクスに関する理論的解析を行う。勾配流について検討し、RLVRが最も成功率の高い理由パターンを選択する解を実際に見つけることができることを示す。さらに,RLVRトレーニングの収束に関して,(1)比較的強い初期推論能力を持つモデルに対する高速収束と(2)弱いモデルに対する緩やかな最適化ダイナミクスの2つの異なる条件を明らかにした。さらに、RLVRの前に教師付き微調整(SFT)を適用することで、より弱いモデルに対するより遅い最適化を緩和できることを示す。広範囲な実験を通じて理論的な知見を検証した。本研究はLLM微調整におけるRLの役割を理論的に理解し,さらに推論能力を高めるための洞察を提供する。

関連論文リスト

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文参考訳（メタデータ） (2025-05-30T17:57:08Z)
The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文参考訳（メタデータ） (2025-05-30T14:23:32Z)
Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。 LLM は RFT に非常に矛盾しない応答が可能である。 RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文参考訳（メタデータ） (2025-05-25T00:54:50Z)
LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文参考訳（メタデータ） (2025-05-22T16:22:54Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。本研究はRLVRの現状を批判的に考察する。現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。 SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文参考訳（メタデータ） (2025-04-10T16:54:05Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。