論文の概要: A Comparative Analysis of Task-Agnostic Distillation Methods for
Compressing Transformer Language Models
- arxiv url: http://arxiv.org/abs/2310.08797v1
- Date: Fri, 13 Oct 2023 01:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:52:15.442460
- Title: A Comparative Analysis of Task-Agnostic Distillation Methods for
Compressing Transformer Language Models
- Title(参考訳): 変圧器言語モデル圧縮のためのタスク非依存蒸留法の比較分析
- Authors: Takuma Udagawa, Aashka Trivedi, Michele Merler, Bishwaranjan
Bhattacharjee
- Abstract要約: トランスフォーマー言語モデルのタスクに依存しない(汎用的な)蒸留法を再現し,比較し,解析する。
我々の研究対象は、出力分布(OD)転送、様々なレイヤマッピング戦略による隠れ状態(HS)転送、MiniLMv2に基づくマルチヘッドアテンション(MHA)転送である。
- 参考スコア(独自算出の注目度): 5.818750175599656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have become a vital component in modern NLP, achieving
state of the art performance in a variety of tasks. However, they are often
inefficient for real-world deployment due to their expensive inference costs.
Knowledge distillation is a promising technique to improve their efficiency
while retaining most of their effectiveness. In this paper, we reproduce,
compare and analyze several representative methods for task-agnostic
(general-purpose) distillation of Transformer language models. Our target of
study includes Output Distribution (OD) transfer, Hidden State (HS) transfer
with various layer mapping strategies, and Multi-Head Attention (MHA) transfer
based on MiniLMv2. Through our extensive experiments, we study the
effectiveness of each method for various student architectures in both
monolingual (English) and multilingual settings. Overall, we show that MHA
transfer based on MiniLMv2 is generally the best option for distillation and
explain the potential reasons behind its success. Moreover, we show that HS
transfer remains as a competitive baseline, especially under a sophisticated
layer mapping strategy, while OD transfer consistently lags behind other
approaches. Findings from this study helped us deploy efficient yet effective
student models for latency-critical applications.
- Abstract(参考訳): 大規模言語モデルは現代のNLPにおいて重要な要素となり、様々なタスクにおいてアートパフォーマンスの状態を達成している。
しかし、コストのかかる推論コストのため、現実のデプロイメントでは効率が悪いことが多い。
知識蒸留は効率を向上する上で有望な技術であり、その効果のほとんどを維持している。
本稿では,トランスフォーマー言語モデルのタスク非依存(汎用)蒸留における代表的手法を再現,比較,解析する。
我々の研究対象は、出力分布(OD)転送、様々なレイヤマッピング戦略による隠れ状態(HS)転送、MiniLMv2に基づくマルチヘッドアテンション(MHA)転送である。
本研究は,単言語(英語)と多言語(多言語)の両方において,様々な学生アーキテクチャにおける各手法の有効性について検討した。
総じて,MiniLMv2に基づくMHA輸送が蒸留の最適選択肢であり,その成功の背景にある可能性を説明する。
さらに,hsトランスファーは,特に洗練された層マッピング戦略の下では,競争ベースラインとして残っており,odトランスファーは他のアプローチよりも遅れていることを示す。
本研究から得られた知見は,遅延クリティカルなアプリケーションに対して効率的かつ効果的な学生モデルを展開するのに役立つ。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual
Machine Translation [8.7660229706359]
多言語機械翻訳のためのモデルキャパシティをスケールするための計算効率のよい方法として,Mixture of Experts (MoE)モデルが広く知られている。
低リソースタスクにおけるMoEモデルの性能向上と過度な適合を防止する効果的な正規化戦略を示す。
論文 参考訳(メタデータ) (2022-12-15T01:06:55Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Selective Knowledge Distillation for Neural Machine Translation [24.493705133103443]
知識蒸留は、各トレーニングサンプルについて教師モデルの知識を伝達することにより、モデルの性能を高めるために広く適用されている。
従来の研究は、教師の知識を伝達する媒体として機能する、これらのサンプル間の異なる影響とつながりについてはほとんど議論しなかった。
本稿では, 蒸留に適した試料を選択するために, バッチレベルとグローバルレベルの2つの簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-27T06:54:12Z) - Comparing Transfer and Meta Learning Approaches on a Unified Few-Shot
Classification Benchmark [44.530605715850506]
大規模メタラーニングベンチマークとトランスファーラーニングベンチマークにおける最適なトランスファーとメタラーニングの家族間比較検討
その結果,ImageNetでのみトレーニングした場合においても,大規模転送方式(Big Transfer, BiT)はMD上での競合手法よりも優れていた。
評価基準の相違点を多数明らかにし,それらのいくつかを性能差の観点から検討した。
論文 参考訳(メタデータ) (2021-04-06T16:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。