論文の概要: Effective Distillation to Hybrid xLSTM Architectures
- arxiv url: http://arxiv.org/abs/2603.15590v1
- Date: Mon, 16 Mar 2026 17:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.71243
- Title: Effective Distillation to Hybrid xLSTM Architectures
- Title(参考訳): ハイブリッドxLSTMアーキテクチャへの有効蒸留
- Authors: Lukas Hauzenberger, Niklas Schmidinger, Thomas Schmied, Anamaria-Roberta Hartl, David Stap, Pieter-Jan Hoedt, Maximilian Beck, Sebastian Böck, Günter Klambauer, Sepp Hochreiter,
- Abstract要約: 我々は,xLSTMをベースとした学生に効果的な蒸留パイプラインを提案する。
本研究では,Llama,Qwen,Olmoファミリーのベースモデルおよび命令調整モデルを用いて,このパイプラインの有効性を示す。
- 参考スコア(独自算出の注目度): 24.88882332108881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There have been numerous attempts to distill quadratic attention-based large language models (LLMs) into sub-quadratic linearized architectures. However, despite extensive research, such distilled models often fail to match the performance of their teacher LLMs on various downstream tasks. We set out the goal of lossless distillation, which we define in terms of tolerance-corrected Win-and-Tie rates between student and teacher on sets of tasks. To this end, we introduce an effective distillation pipeline for xLSTM-based students. We propose an additional merging stage, where individually linearized experts are combined into a single model. We show the effectiveness of this pipeline by distilling base and instruction-tuned models from the Llama, Qwen, and Olmo families. In many settings, our xLSTM-based students recover most of the teacher's performance, and even exceed it on some downstream tasks. Our contributions are an important step towards more energy-efficient and cost-effective replacements for transformer-based LLMs.
- Abstract(参考訳): 2次注意に基づく大規模言語モデル(LLM)を準4次線形化アーキテクチャに蒸留する試みは数多く行われている。
しかし、大規模な研究にもかかわらず、蒸留されたモデルは、様々な下流タスクにおいて、教師のLLMのパフォーマンスにマッチしないことが多い。
我々は,学生と教師のタスクセットにおける耐性補正Win-Tie率の観点から,無損失蒸留の目標を設定した。
そこで本研究では,xLSTMをベースとした学生を対象に,効率的な蒸留パイプラインを提案する。
我々は、個別に線形化された専門家を1つのモデルにまとめる、新たな統合ステージを提案する。
本研究では,Llama,Qwen,Olmoファミリーのベースモデルおよび命令調整モデルを用いて,このパイプラインの有効性を示す。
多くの設定において、xLSTMをベースとした学生は、教師のパフォーマンスの大半を回復し、下流のタスクよりも上回っている。
我々の貢献は、トランスをベースとしたLCMのよりエネルギー効率が高く、コスト効率のよい代替への重要な一歩である。
関連論文リスト
- Flexible Feature Distillation for Large Language Models [4.277471273303775]
大規模言語モデル(LLM)のためのタスク駆動型特徴蒸留のためのパラメータフリーフレームワークを提案する。
教師の表現全体を投影する代わりに、Flex-KDは、教師の隠れた状態の最もタスク関連のある次元を特定するために勾配ベースのスコアを使用する。
実験の結果、Flex-KDは一貫して生徒のパフォーマンスを向上し、線形射影ベースラインよりも最大3.75パーセントのパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-07-14T11:10:02Z) - DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs [58.4911494598431]
DistiLLM-2は、教師の反応の可能性を同時に増加させ、生徒の反応を減少させる対照的なアプローチである。
実験の結果,DistiLLM-2は様々なタスクにまたがって高性能な学生モデルを構築するだけでなく,多様なアプリケーションをサポートすることがわかった。
論文 参考訳(メタデータ) (2025-03-10T08:51:32Z) - Pre-training Distillation for Large Language Models: A Design Space Exploration [54.67324039434781]
予習蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことを目的としている。
我々は, プレトレーニング蒸留の設計空間を探索し, より良い構成を求める実験を行った。
我々は, 設計分野の探究が, 予修蒸留の今後の実践に影響を及ぼすことを期待している。
論文 参考訳(メタデータ) (2024-10-21T17:16:13Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - DDK: Distilling Domain Knowledge for Efficient Large Language Models [40.839056203329136]
知識蒸留(KD)は、より小さな言語モデルの性能を向上させる効果的な戦略として登場した。
本稿では,教員モデルと学生モデルとのドメイン性能差に応じて蒸留データセットの構成を調整するDDKについて紹介する。
大規模評価の結果,DDK は学生モデルの性能を著しく向上させ,継続的な事前学習ベースラインと既存の知識蒸留法を大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2024-07-23T03:47:28Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。