論文の概要: Small Models Struggle to Learn from Strong Reasoners
- arxiv url: http://arxiv.org/abs/2502.12143v2
- Date: Sat, 22 Feb 2025 16:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:48:03.489269
- Title: Small Models Struggle to Learn from Strong Reasoners
- Title(参考訳): 強い共振器から学ぶための小さなモデル
- Authors: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran,
- Abstract要約: 小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。
我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 14.895026967556088
- License:
- Abstract: Large language models (LLMs) excel in complex reasoning tasks, and distilling their reasoning capabilities into smaller models has shown promise. However, we uncover an interesting phenomenon, which we term the Small Model Learnability Gap: small models ($\leq$3B parameters) do not consistently benefit from long chain-of-thought (CoT) reasoning or distillation from larger models. Instead, they perform better when fine-tuned on shorter, simpler reasoning chains that better align with their intrinsic learning capacity. To address this, we propose Mix Distillation, a simple yet effective strategy that balances reasoning complexity by combining long and short CoT examples or reasoning from both larger and smaller models. Our experiments demonstrate that Mix Distillation significantly improves small model reasoning performance compared to training on either data alone. These findings highlight the limitations of direct strong model distillation and underscore the importance of adapting reasoning complexity for effective reasoning capability transfer.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクに優れており、推論能力をより小さなモデルに融合させることは有望である。
小さいモデル(3B のパラメータ)は、大きなモデルからの長いチェーン・オブ・シークレット(CoT)推論や蒸留の恩恵を一貫して受けない。
代わりに、より短く、より単純な推論チェーンを微調整することで、本質的な学習能力とより良く整合する。
そこで本研究では,CoTの長い例と短い例を組み合わせることによる推論の複雑さのバランスをとる,シンプルかつ効果的な戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
これらの知見は, 直接強いモデル蒸留の限界を浮き彫りにし, 効果的な推論能力伝達のための推論複雑性の適応の重要性を浮き彫りにした。
関連論文リスト
- Self-Enhanced Reasoning Training: Activating Latent Reasoning in Small Models for Enhanced Reasoning Distillation [34.48068572413349]
小型モデルでは, チェーン・オブ・シークレットがなくても, サンプリング中に高品質な推論経路を生成可能であることを示す。
小型モデルにおける潜在推論機能を活性化し活用する自己強化推論訓練(SERT)を提案する。
OpenAI の GPT-3.5 を教師モデルとして、GPT-2 モデルを学生モデルとして実験したところ、SERT が小モデルの推論能力を高めることが示されている。
論文 参考訳(メタデータ) (2025-02-18T11:02:47Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。
精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。
2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文 参考訳(メタデータ) (2025-02-06T19:18:16Z) - AS-ES Learning: Towards Efficient CoT Learning in Small Models [35.225382243612174]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)において重要な出現能力として機能する
本稿では,CoT内固有の情報を反復生成に活用したAS-ES学習手法を提案する。
実験により,データ拡張やモデル自体の変更を伴わずに,MWPやPET要約などのCoT集約タスクにおけるSeq2seqトレーニングを超越した手法が得られた。
論文 参考訳(メタデータ) (2024-03-04T12:13:59Z) - Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。
また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文 参考訳(メタデータ) (2022-12-20T08:24:45Z) - Distilling Reasoning Capabilities into Smaller Language Models [83.66051257039763]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。
しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。
本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T00:39:56Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - On the Efficacy of Small Self-Supervised Contrastive Models without
Distillation Signals [44.209171209780365]
小さなモデルは、自己教師付きコントラスト学習のパラダイムの下では、非常によく機能しない。
既存の方法は、通常、知識を知識蒸留を通じて小さなものに伝達するために、大きなオフ・ザ・シェルフモデルを採用する。
その効果にもかかわらず、蒸留法はいくつかの資源制限されたシナリオには適さないかもしれない。
論文 参考訳(メタデータ) (2021-07-30T17:10:05Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。