論文の概要: Improving Reasoning Capabilities in Small Models through Mixture-of-Layers Distillation with Stepwise Attention on Key Information
- arxiv url: http://arxiv.org/abs/2604.15701v1
- Date: Fri, 17 Apr 2026 05:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.741091
- Title: Improving Reasoning Capabilities in Small Models through Mixture-of-Layers Distillation with Stepwise Attention on Key Information
- Title(参考訳): キー情報に対する段階的注意を伴う混合層蒸留による小型モデルの推論能力の向上
- Authors: Yao Chen, Jiawei Sheng, Wenyuan Zhang, Tingwen Liu,
- Abstract要約: 本稿では,教師の留学生モデルへの重要な情報に対する注意を段階的に伝達する新しいCoT蒸留フレームワークについて紹介する。
このことは、学生が推論中に重要な情報に進歩的に集中するための構造化されたガイダンスを確立する。
提案手法は,複数の数学的および常識的推論データセットに対して一貫した性能向上を実現する。
- 参考スコア(独自算出の注目度): 29.687759194220135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The significant computational demands of large language models have increased interest in distilling reasoning abilities into smaller models via Chain-of-Thought (CoT) distillation. Current CoT distillation methods mainly focus on transferring teacher-generated rationales for complex reasoning to student models. However, they do not adequately explore teachers' dynamic attention toward critical information during reasoning. We find that language models exhibit progressive attention shifts towards key information during reasoning, which implies essential clues for drawing conclusions. Building on this observation and analysis, we introduce a novel CoT distillation framework that transfers the teacher's stepwise attention on key information to the student model. This establishes structured guidance for the student's progressive concentration on key information during reasoning. More importantly, we develop a Mixture of Layers module enabling dynamic alignment that adapts to different layers between the teacher and student. Our method achieves consistent performance improvements across multiple mathematical and commonsense reasoning datasets. To our knowledge, it is the first method to leverage stepwise attention within CoT distillation to improve small model reasoning.
- Abstract(参考訳): 大規模言語モデルの重要な計算要求は、Chain-of-Thought (CoT)蒸留によるより小さなモデルへの推論能力の蒸留への関心を高めている。
現在のCoT蒸留法は主に、複雑な推論のための教師生成論理を学生モデルに伝達することに焦点を当てている。
しかし,批判的情報に対する教師のダイナミックな注意を合理的に探ることはできない。
言語モデルは、推論中に重要な情報に対して徐々に注意を向ける傾向を示し、結論を導出するための重要な手がかりとなる。
この観察と分析に基づいて,教師の重要情報を学生モデルに段階的に伝達する新しいCoT蒸留フレームワークを導入する。
このことは、学生が推論中に重要な情報に進歩的に集中するための構造化されたガイダンスを確立する。
さらに重要なことは、教師と学生の異なるレイヤに適応する動的アライメントを可能にするMixture of Layersモジュールを開発することである。
提案手法は,複数の数学的および常識的推論データセットに対して一貫した性能向上を実現する。
我々の知る限り、これはCoT蒸留における段階的注意を生かし、小さなモデル推論を改善するための最初の方法である。
関連論文リスト
- Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - Asymmetric Decision-Making in Online Knowledge Distillation:Unifying Consensus and Divergence [18.640219880439062]
本稿では,中間空間表現を活用する革新的な手法を提案する。
本稿では,学生モデルの特徴コンセンサス学習を強化するために,非対称意思決定(ADM)を提案する。
論文 参考訳(メタデータ) (2025-03-09T16:32:25Z) - Exploring Graph-based Knowledge: Multi-Level Feature Distillation via Channels Relational Graph [8.646512035461994]
視覚的なタスクでは、大きな教師モデルは重要な特徴と深い情報を取得し、パフォーマンスを向上する。
マルチレベル特徴アライメント戦略を含むグラフ知識に基づく蒸留フレームワークを提案する。
蒸留工程におけるスペクトル埋め込み (SE) は, 学生の特徴空間と教師ネットワークに類似した関係知識と構造的複雑さを融合させる重要な手法である。
論文 参考訳(メタデータ) (2024-05-14T12:37:05Z) - Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach [50.36650300087987]
本研究は, ジェネレーティブ・クラス・インクリメンタル・ラーニング(GCIL, Generative Class Incremental Learning)への新たなアプローチを提案する。
我々は, 忘れる機構の統合により, 新たな知識獲得におけるモデルの性能が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-03-27T05:10:38Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。