論文の概要: Self-Enhanced Reasoning Training: Activating Latent Reasoning in Small Models for Enhanced Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2502.12744v1
- Date: Tue, 18 Feb 2025 11:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.916843
- Title: Self-Enhanced Reasoning Training: Activating Latent Reasoning in Small Models for Enhanced Reasoning Distillation
- Title(参考訳): 自己強化型推論トレーニング:小型モデルにおける潜在型推論の活性化
- Authors: Yong Zhang, Bingyuan Zhang, Zhitao Li, Ming Li, Ning Cheng, Minchuan Chen, Tao Wei, Jun Ma, Shaojun Wang, Jing Xiao,
- Abstract要約: 小型モデルでは, チェーン・オブ・シークレットがなくても, サンプリング中に高品質な推論経路を生成可能であることを示す。
小型モデルにおける潜在推論機能を活性化し活用する自己強化推論訓練(SERT)を提案する。
OpenAI の GPT-3.5 を教師モデルとして、GPT-2 モデルを学生モデルとして実験したところ、SERT が小モデルの推論能力を高めることが示されている。
- 参考スコア(独自算出の注目度): 34.48068572413349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has significantly enhanced their reasoning abilities, enabling increasingly complex tasks. However, these capabilities often diminish in smaller, more computationally efficient models like GPT-2. Recent research shows that reasoning distillation can help small models acquire reasoning capabilities, but most existing methods focus primarily on improving teacher-generated reasoning paths. Our observations reveal that small models can generate high-quality reasoning paths during sampling, even without chain-of-thought prompting, though these paths are often latent due to their low probability under standard decoding strategies. To address this, we propose Self-Enhanced Reasoning Training (SERT), which activates and leverages latent reasoning capabilities in small models through self-training on filtered, self-generated reasoning paths under zero-shot conditions. Experiments using OpenAI's GPT-3.5 as the teacher model and GPT-2 models as the student models demonstrate that SERT enhances the reasoning abilities of small models, improving their performance in reasoning distillation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、推論能力を大幅に向上させ、ますます複雑なタスクを可能にしている。
しかしながら、これらの機能は、GPT-2のようなより小さく、より計算効率の良いモデルにおいて減少することが多い。
近年の研究では、推論蒸留が小規模なモデルで推論能力を得るのに役立つことが示されているが、既存の手法は主に教師が生成する推論経路を改善することに焦点を当てている。
提案手法では, チェーン・オブ・シークレット・プロンプトを使わずに, サンプリング中に小型モデルが高品質な推論経路を生成できることを示すが, 標準的な復号化戦略の下では, これらの経路は低い確率で遅延することが多い。
そこで本研究では,ゼロショット条件下での自己学習により,小型モデルにおける潜在推論能力を活性化し,活用する自己強化推論訓練(SERT)を提案する。
教員モデルとして OpenAI の GPT-3.5 と学生モデルとして GPT-2 を用いた実験により,SERT が小型モデルの推理能力を高め,蒸留の推理性能を向上させることを示した。
関連論文リスト
- Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Small Models Struggle to Learn from Strong Reasoners [14.895026967556088]
小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。
我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-17T18:56:15Z) - Enhancing Knowledge Distillation for LLMs with Response-Priming Prompting [1.9461727843485295]
そこで本研究では,学生モデルの性能向上のための新しい応答プライシング手法を提案する。
Llama 3.1 405B 教師モデルから知識を抽出し,より小さな Llama 3.1 8B 教師モデルを微調整する。
その結果, 蒸留したLlama 3.1 8BインストラクトのGSM8Kは55%向上した。
論文 参考訳(メタデータ) (2024-12-18T20:41:44Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - First-Step Advantage: Importance of Starting Right in Multi-Step Math Reasoning [11.75364271481855]
言語モデルは、予測のための合理性を生成することを学ぶことによって、複雑な推論タスクをよりよく解決することができる。
より小さなモデル、特に修正された場合には、彼らが他の方法で苦労したであろうタスクを解決できることを観察します。
我々はQuestCoTを提案し、より小さなモデルがまず、推論の連鎖で進む前に、どのように開始するかを自問する。
論文 参考訳(メタデータ) (2023-11-14T06:45:31Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the Efficacy of Small Self-Supervised Contrastive Models without
Distillation Signals [44.209171209780365]
小さなモデルは、自己教師付きコントラスト学習のパラダイムの下では、非常によく機能しない。
既存の方法は、通常、知識を知識蒸留を通じて小さなものに伝達するために、大きなオフ・ザ・シェルフモデルを採用する。
その効果にもかかわらず、蒸留法はいくつかの資源制限されたシナリオには適さないかもしれない。
論文 参考訳(メタデータ) (2021-07-30T17:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。