Fugu-MT 論文翻訳(概要): Knowledge Distillation of Transformer-based Language Models Revisited

論文の概要: Knowledge Distillation of Transformer-based Language Models Revisited

arxiv url: http://arxiv.org/abs/2206.14366v1
Date: Wed, 29 Jun 2022 02:16:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-30 19:44:20.161952
Title: Knowledge Distillation of Transformer-based Language Models Revisited
Title（参考訳）: 変圧器型言語モデルの再検討
Authors: Chengqiang Lu, Jianwei Zhang, Yunfei Chu, Zhengyu Chen, Jingren Zhou, Fei Wu, Haiqing Chen, Hongxia Yang
Abstract要約: 大規模なモデルサイズと高いランタイムレイテンシは、実際にトレーニング済みの言語モデルを適用する上で深刻な障害となります。変圧器モデルのための統合知識蒸留フレームワークを提案する。実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)に比べて相対的に改善した。
参考スコア（独自算出の注目度）: 74.25427636413067
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In the past few years, transformer-based pre-trained language models have achieved astounding success in both industry and academia. However, the large model size and high run-time latency are serious impediments to applying them in practice, especially on mobile phones and Internet of Things (IoT) devices. To compress the model, considerable literature has grown up around the theme of knowledge distillation (KD) recently. Nevertheless, how KD works in transformer-based models is still unclear. We tease apart the components of KD and propose a unified KD framework. Through the framework, systematic and extensive experiments that spent over 23,000 GPU hours render a comprehensive analysis from the perspectives of knowledge types, matching strategies, width-depth trade-off, initialization, model size, etc. Our empirical results shed light on the distillation in the pre-train language model and with relative significant improvement over previous state-of-the-arts(SOTA). Finally, we provide a best-practice guideline for the KD in transformer-based models.
Abstract（参考訳）: ここ数年、トランスフォーマーベースの事前学習言語モデルは、産業とアカデミックの両方で驚くべき成功を収めてきた。しかし、大規模なモデルサイズと高ランタイムレイテンシは、特に携帯電話やIoT(Internet of Things)デバイスにおいて、実際にそれを適用する上で深刻な障害となる。このモデルを圧縮するために、知識蒸留(KD)のテーマを中心に、近年かなりの文献が成長している。しかしながら、KDがトランスフォーマーベースのモデルでどのように機能するかはまだ不明である。我々はKDのコンポーネントを分解し、統一KDフレームワークを提案する。このフレームワークを通じて、23,000GPU時間を超える体系的かつ広範な実験は、知識タイプ、マッチング戦略、幅と深さのトレードオフ、初期化、モデルサイズなどの観点から包括的な分析をレンダリングする。実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)と比較して相対的に改善した。最後に、変換器モデルにおけるKDのベストプラクティスガイドラインを提供する。

関連論文リスト

A Comprehensive Survey on Knowledge Distillation [6.3968297708975435]
知識蒸留(KD)は、上記の問題に対処するために提案された顕著な手法の1つである。本研究は, 蒸留源, 蒸留方法, 蒸留アルゴリズム, 蒸留の応用, 既存の方法との比較など, さまざまな側面からKDをレビューすることを含む。本調査では, 拡散モデルのKD, 3次元入力, 基礎モデル, 変圧器, LLMなどの重要なサブカテゴリについて検討した。
論文参考訳（メタデータ） (2025-03-15T09:48:29Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models [0.0]
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
論文参考訳（メタデータ） (2024-07-22T14:20:53Z)
What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。 Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文参考訳（メタデータ） (2024-05-03T17:00:00Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文参考訳（メタデータ） (2021-10-22T21:30:53Z)
HYDRA -- Hyper Dependency Representation Attentions [4.697611383288171]
そこで本稿では,トランスフォーマーモデルに知識を注入するために,事前学習を行うことなく,より軽量な言語自己意図型ヘッドを提案する。私たちのアプローチは、教師なしの学習をモデルに残して、言語知識を厳格に適合させるというバランスのとれたパラダイムです。我々は,言語知識のトランスフォーマーモデルへの貢献を示すために,ベンチマークデータセットのフレームワークを実証的に検証した。
論文参考訳（メタデータ） (2021-09-11T19:17:34Z)
Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。 KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文参考訳（メタデータ） (2020-11-08T23:37:58Z)
Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文参考訳（メタデータ） (2020-06-09T21:47:17Z)
Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks [39.2907363775529]
知識蒸留(KD)は、あるモデルから他のモデルへ学習した情報を伝達するために提案されている。本稿では,近年積極的に研究されているKDとS-T学習について述べる。
論文参考訳（メタデータ） (2020-04-13T13:45:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。