Fugu-MT 論文翻訳(概要): Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

論文の概要: Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

arxiv url: http://arxiv.org/abs/2505.21067v1
Date: Tue, 27 May 2025 11:52:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.619228
Title: Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
Title（参考訳）: 蒸留がゼロRLより優れている理由--フレキシブル推論の役割
Authors: Xiao Hu, Xingyu Lu, Liyuan Mao, YiFan Zhang, Tianke Zhang, Bin Wen, Fan Yang, Tingting Gao, Guorui Zhou,
Abstract要約: 基礎モデルに基づく簡易蒸留法は, 0-RL よりも明らかに優れていることを示す。これはゼロRLモデルよりもはるかに頻繁に、擬人化トークンと論理コネクタを使用する。
参考スコア（独自算出の注目度）: 12.965989509984407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has played an important role in improving the reasoning ability of large language models (LLMs). Some studies apply RL directly to \textit{smaller} base models (known as zero-RL) and also achieve notable progress. However, in this paper, we show that using only 920 examples, a simple distillation method based on the base model can clearly outperform zero-RL, which typically requires much more data and computational cost. By analyzing the token frequency in model outputs, we find that the distilled model shows more flexible reasoning. It uses anthropomorphic tokens and logical connectors much more often than the zero-RL model. Further analysis reveals that distillation enhances the presence of two advanced cognitive behaviors: Multi-Perspective Thinking or Attempting and Metacognitive Awareness. Frequent occurrences of these two advanced cognitive behaviors give rise to flexible reasoning, which is essential for solving complex reasoning problems, while zero-RL fails to significantly boost the frequency of these behaviors.
Abstract（参考訳）: 強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に重要な役割を果たしている。いくつかの研究では、RL を textit{smaller} 基底モデル(0-RL として知られる)に直接適用し、また顕著な進歩を達成する。しかし, 本論文では, 920例のみを用いて, 基本モデルに基づく簡易蒸留法は, 典型的には多くのデータと計算コストを必要とするゼロRLよりも明らかに優れていることを示す。モデル出力のトークン周波数を解析することにより、蒸留されたモデルはより柔軟な推論を示す。これはゼロRLモデルよりもはるかに頻繁に、擬人化トークンと論理コネクタを使用する。さらに分析したところ、蒸留は2つの先進的な認知行動、すなわち多視点思考(Multi-Perspective Thinking)とメタ認知認識(Metacognitive Awareness)の存在を促進することが明らかとなった。これら2つの高度な認知行動の頻繁な発生は、複雑な推論問題の解決に不可欠であるフレキシブル推論を引き起こすが、ゼロRLはこれらの行動の頻度を大幅に上昇させることができない。

関連論文リスト

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文参考訳（メタデータ） (2025-05-30T17:59:01Z)
RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文参考訳（メタデータ） (2025-05-30T17:57:08Z)
The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文参考訳（メタデータ） (2025-05-30T14:23:32Z)
Behavior Injection: Preparing Language Models for Reinforcement Learning [24.46625106928253]
強化微調整(Reinforcement fine-tuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニング手法として登場した。 LLM は RFT に非常に矛盾しない応答が可能である。 RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
論文参考訳（メタデータ） (2025-05-25T00:54:50Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。本研究はRLVRの現状を批判的に考察する。現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。簡潔さと正確さの自然な相関関係を明らかにする。 RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文参考訳（メタデータ） (2025-04-07T15:35:54Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文参考訳（メタデータ） (2025-03-07T04:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。