論文の概要: Collaborative Distillation Strategies for Parameter-Efficient Language Model Deployment
- arxiv url: http://arxiv.org/abs/2507.15198v1
- Date: Mon, 21 Jul 2025 02:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.236355
- Title: Collaborative Distillation Strategies for Parameter-Efficient Language Model Deployment
- Title(参考訳): パラメータ効率の良い言語モデル展開のための協調蒸留法
- Authors: Xiandong Meng, Yan Wu, Yexin Tian, Xin Hu, Tianze Kang, Junliang Du,
- Abstract要約: 本稿は,大規模言語モデルの展開において,高い計算コストと遅延推論の課題に対処する。
複数の教師モデルによって導かれる蒸留戦略を提案する。
その結果, パープレキシティ, 蒸留損失, 生成品質の全体的な優位性が確認された。
- 参考スコア(独自算出の注目度): 41.35285613908838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenges of high computational cost and slow inference in deploying large language models. It proposes a distillation strategy guided by multiple teacher models. The method constructs several teacher models and integrates their output probability distributions and intermediate semantic features. This guides the student model to learn from multiple sources of knowledge. As a result, the student model gains stronger language understanding and generation ability while maintaining a small parameter size. To achieve this, the paper introduces a weighted output fusion mechanism, a feature alignment loss function, and an entropy-driven dynamic teacher weighting strategy. These components improve the quality and stability of knowledge transfer during distillation. Under multi-teacher guidance, the student model captures semantic information more effectively and demonstrates strong performance across multiple evaluation metrics. In particular, the method shows high consistency in expression, generalization ability, and task adaptability in tasks such as language modeling, text generation, and multi-task learning. The experiments compare the proposed method with several widely adopted distillation approaches. The results further confirm its overall advantages in perplexity, distillation loss, and generation quality. This study provides a feasible technical path for the efficient compression of large-scale language models. It also demonstrates the effectiveness of multi-teacher collaborative mechanisms in complex language modeling tasks.
- Abstract(参考訳): 本稿では,大規模言語モデルの展開において,高い計算コストと遅延推論の課題に対処する。
複数の教師モデルによって導かれる蒸留戦略を提案する。
本手法は複数の教師モデルを構築し,その出力確率分布と中間的意味的特徴を統合する。
これは、複数の知識源から学ぶための学生モデルである。
その結果、学生モデルは、小さいパラメータサイズを維持しながら、より強力な言語理解と生成能力を得ることができた。
そこで本研究では,重み付き出力融合機構,特徴配向損失関数,エントロピー駆動型動的教師重み付け戦略を提案する。
これらの成分は蒸留時の知識伝達の質と安定性を向上させる。
多教師指導の下では、学生モデルは意味情報をより効果的に捉え、複数の評価指標間で強い性能を示す。
特に、言語モデリング、テキスト生成、マルチタスク学習といったタスクにおいて、表現の一貫性、一般化能力、タスク適応性を示す。
実験では,提案手法と広く採用されている蒸留法との比較を行った。
さらに, パープレキシティ, 蒸留損失, 生成品質の全体的な優位性を確認した。
本研究は,大規模言語モデルの効率的な圧縮に有効な技術パスを提供する。
また、複雑な言語モデリングタスクにおける多教師協調機構の有効性を示す。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8298782282181865]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。
TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。
これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文 参考訳(メタデータ) (2025-01-28T13:31:18Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - A Comparative Analysis of Task-Agnostic Distillation Methods for
Compressing Transformer Language Models [5.818750175599656]
トランスフォーマー言語モデルのタスクに依存しない(汎用的な)蒸留法を再現し,比較し,解析する。
我々の研究対象は、出力分布(OD)転送、様々なレイヤマッピング戦略による隠れ状態(HS)転送、MiniLMv2に基づくマルチヘッドアテンション(MHA)転送である。
論文 参考訳(メタデータ) (2023-10-13T01:00:15Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。