Fugu-MT 論文翻訳(概要): Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization

論文の概要: Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization

arxiv url: http://arxiv.org/abs/2604.03110v1
Date: Fri, 03 Apr 2026 15:35:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.510023
Title: Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization
Title（参考訳）: 低ランク因子化言語モデルのための多視点知識蒸留
Authors: Zihe Liu, Yulong Mao, Jinan Xu, Xinrui Peng, Kaiyu Huang,
Abstract要約: 我々は,多視点知識蒸留法(MaKD)を導入し,より深く自己注意とフィードフォワードモジュールを模倣し,豊かな言語知識情報を取得する。また,本手法は自動回帰アーキテクチャモデルの蒸留にも有効である。
参考スコア（独自算出の注目度）: 29.01955120741475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge distillation is an effective technique for pre-trained language model compression. However, existing methods only focus on the knowledge distribution among layers, which may cause the loss of fine-grained information in the alignment process. To address this issue, we introduce the Multi-aspect Knowledge Distillation (MaKD) method, which mimics the self-attention and feed-forward modules in greater depth to capture rich language knowledge information at different aspects. Experimental results demonstrate that MaKD can achieve competitive performance compared with various strong baselines with the same storage parameter budget. In addition, our method also performs well in distilling auto-regressive architecture models.
Abstract（参考訳）: 知識蒸留は事前訓練された言語モデル圧縮に有効な手法である。しかし,既存の手法では,レイヤ間の知識分布にのみ焦点が当てられているため,アライメントプロセスにおいて詳細な情報が失われる可能性がある。この問題に対処するために,多視点知識蒸留法(MaKD)を導入する。これは,多面的な言語知識情報を取得するために,自己注意とフィードフォワードモジュールをより深く模倣する手法である。実験により,MaKDは,ストレージパラメータの予算が同じである各種の強いベースラインと比較して,競争性能が向上することを示した。また,本手法は自動回帰アーキテクチャモデルの蒸留にも有効である。

関連論文リスト

On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文参考訳（メタデータ） (2026-02-12T18:58:28Z)
Exploring Knowledge Purification in Multi-Teacher Knowledge Distillation for LLMs [30.543860587982895]
我々は,複数のLLM教師の合理性を1つの合理化に集約するtextbfKnowledge Purificationの概念を導入する。実験により, これらの手法は蒸留モデルの性能を向上させるだけでなく, 知識衝突を効果的に軽減することを示した。
論文参考訳（メタデータ） (2026-02-01T07:19:57Z)
Teaching with Uncertainty: Unleashing the Potential of Knowledge Distillation in Object Detection [47.0507287491627]
本稿では,物体検出のための知識の不確実性を考慮した特徴量に基づく蒸留パラダイムを提案する。モンテカルロのドロップアウト手法を利用して,学生モデルの学習過程に知識の不確実性を導入する。本手法は,複雑な構造や計算資源を必要とせずに,KDプロセス中に効果的に機能する。
論文参考訳（メタデータ） (2024-06-11T06:51:02Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
A Closer Look at Knowledge Distillation with Features, Logits, and Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文参考訳（メタデータ） (2022-03-18T21:26:55Z)
Knowledge distillation from language model to acoustic model: a hierarchical multi-task learning approach [12.74181185088531]
クロスモーダルな知識蒸留は音声認識研究の主要なトピックである。クロスモーダル蒸留のための複数の補助出力層を有する音響モデル構造を提案する。提案手法を異なる単位で訓練されたLMを用いて階層蒸留法に拡張する。
論文参考訳（メタデータ） (2021-10-20T08:42:10Z)
Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-05T00:49:14Z)
On the Orthogonality of Knowledge Distillation with Other Techniques: From an Ensemble Perspective [34.494730096460636]
知識蒸留は,効率的なニューラルネットワークを実用化するための強力な装置であることを示す。また,知識蒸留を他の手法と効果的に統合する方法についても紹介する。
論文参考訳（メタデータ） (2020-09-09T06:14:59Z)
Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文参考訳（メタデータ） (2020-02-21T07:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。