論文の概要: Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
- arxiv url: http://arxiv.org/abs/2505.21067v1
- Date: Tue, 27 May 2025 11:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.619228
- Title: Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
- Title(参考訳): 蒸留がゼロRLより優れている理由--フレキシブル推論の役割
- Authors: Xiao Hu, Xingyu Lu, Liyuan Mao, YiFan Zhang, Tianke Zhang, Bin Wen, Fan Yang, Tingting Gao, Guorui Zhou,
- Abstract要約: 基礎モデルに基づく簡易蒸留法は, 0-RL よりも明らかに優れていることを示す。
これはゼロRLモデルよりもはるかに頻繁に、擬人化トークンと論理コネクタを使用する。
- 参考スコア(独自算出の注目度): 12.965989509984407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has played an important role in improving the reasoning ability of large language models (LLMs). Some studies apply RL directly to \textit{smaller} base models (known as zero-RL) and also achieve notable progress. However, in this paper, we show that using only 920 examples, a simple distillation method based on the base model can clearly outperform zero-RL, which typically requires much more data and computational cost. By analyzing the token frequency in model outputs, we find that the distilled model shows more flexible reasoning. It uses anthropomorphic tokens and logical connectors much more often than the zero-RL model. Further analysis reveals that distillation enhances the presence of two advanced cognitive behaviors: Multi-Perspective Thinking or Attempting and Metacognitive Awareness. Frequent occurrences of these two advanced cognitive behaviors give rise to flexible reasoning, which is essential for solving complex reasoning problems, while zero-RL fails to significantly boost the frequency of these behaviors.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に重要な役割を果たしている。
いくつかの研究では、RL を textit{smaller} 基底モデル(0-RL として知られる)に直接適用し、また顕著な進歩を達成する。
しかし, 本論文では, 920例のみを用いて, 基本モデルに基づく簡易蒸留法は, 典型的には多くのデータと計算コストを必要とするゼロRLよりも明らかに優れていることを示す。
モデル出力のトークン周波数を解析することにより、蒸留されたモデルはより柔軟な推論を示す。
これはゼロRLモデルよりもはるかに頻繁に、擬人化トークンと論理コネクタを使用する。
さらに分析したところ、蒸留は2つの先進的な認知行動、すなわち多視点思考(Multi-Perspective Thinking)とメタ認知認識(Metacognitive Awareness)の存在を促進することが明らかとなった。
これら2つの高度な認知行動の頻繁な発生は、複雑な推論問題の解決に不可欠であるフレキシブル推論を引き起こすが、ゼロRLはこれらの行動の頻度を大幅に上昇させることができない。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。