論文の概要: Self-Enhanced Reasoning Training: Activating Latent Reasoning in Small Models for Enhanced Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2502.12744v1
- Date: Tue, 18 Feb 2025 11:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:51.967175
- Title: Self-Enhanced Reasoning Training: Activating Latent Reasoning in Small Models for Enhanced Reasoning Distillation
- Title(参考訳): 自己強化型推論トレーニング:小型モデルにおける潜在型推論の活性化
- Authors: Yong Zhang, Bingyuan Zhang, Zhitao Li, Ming Li, Ning Cheng, Minchuan Chen, Tao Wei, Jun Ma, Shaojun Wang, Jing Xiao,
- Abstract要約: 小型モデルでは, チェーン・オブ・シークレットがなくても, サンプリング中に高品質な推論経路を生成可能であることを示す。
小型モデルにおける潜在推論機能を活性化し活用する自己強化推論訓練(SERT)を提案する。
OpenAI の GPT-3.5 を教師モデルとして、GPT-2 モデルを学生モデルとして実験したところ、SERT が小モデルの推論能力を高めることが示されている。
- 参考スコア(独自算出の注目度): 34.48068572413349
- License:
- Abstract: The rapid advancement of large language models (LLMs) has significantly enhanced their reasoning abilities, enabling increasingly complex tasks. However, these capabilities often diminish in smaller, more computationally efficient models like GPT-2. Recent research shows that reasoning distillation can help small models acquire reasoning capabilities, but most existing methods focus primarily on improving teacher-generated reasoning paths. Our observations reveal that small models can generate high-quality reasoning paths during sampling, even without chain-of-thought prompting, though these paths are often latent due to their low probability under standard decoding strategies. To address this, we propose Self-Enhanced Reasoning Training (SERT), which activates and leverages latent reasoning capabilities in small models through self-training on filtered, self-generated reasoning paths under zero-shot conditions. Experiments using OpenAI's GPT-3.5 as the teacher model and GPT-2 models as the student models demonstrate that SERT enhances the reasoning abilities of small models, improving their performance in reasoning distillation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、推論能力を大幅に向上させ、ますます複雑なタスクを可能にしている。
しかしながら、これらの機能は、GPT-2のようなより小さく、より計算効率の良いモデルにおいて減少することが多い。
近年の研究では、推論蒸留が小規模なモデルで推論能力を得るのに役立つことが示されているが、既存の手法は主に教師が生成する推論経路を改善することに焦点を当てている。
提案手法では, チェーン・オブ・シークレット・プロンプトを使わずに, サンプリング中に小型モデルが高品質な推論経路を生成できることを示すが, 標準的な復号化戦略の下では, これらの経路は低い確率で遅延することが多い。
そこで本研究では,ゼロショット条件下での自己学習により,小型モデルにおける潜在推論能力を活性化し,活用する自己強化推論訓練(SERT)を提案する。
教員モデルとして OpenAI の GPT-3.5 と学生モデルとして GPT-2 を用いた実験により,SERT が小型モデルの推理能力を高め,蒸留の推理性能を向上させることを示した。
関連論文リスト
- Small Models Struggle to Learn from Strong Reasoners [14.895026967556088]
小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。
我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-17T18:56:15Z) - Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。
精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。
2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文 参考訳(メタデータ) (2025-02-06T19:18:16Z) - Enhancing Knowledge Distillation for LLMs with Response-Priming Prompting [1.9461727843485295]
そこで本研究では,学生モデルの性能向上のための新しい応答プライシング手法を提案する。
Llama 3.1 405B 教師モデルから知識を抽出し,より小さな Llama 3.1 8B 教師モデルを微調整する。
その結果, 蒸留したLlama 3.1 8BインストラクトのGSM8Kは55%向上した。
論文 参考訳(メタデータ) (2024-12-18T20:41:44Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the Efficacy of Small Self-Supervised Contrastive Models without
Distillation Signals [44.209171209780365]
小さなモデルは、自己教師付きコントラスト学習のパラダイムの下では、非常によく機能しない。
既存の方法は、通常、知識を知識蒸留を通じて小さなものに伝達するために、大きなオフ・ザ・シェルフモデルを採用する。
その効果にもかかわらず、蒸留法はいくつかの資源制限されたシナリオには適さないかもしれない。
論文 参考訳(メタデータ) (2021-07-30T17:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。