論文の概要: Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2403.18804v1
- Date: Wed, 27 Mar 2024 17:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:50:03.340913
- Title: Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation
- Title(参考訳): モジュール性伝達は可能か? : 知識蒸留レンズを用いたケーススタディ
- Authors: Mateusz Klimaszewski, Piotr Andruszkiewicz, Alexandra Birch,
- Abstract要約: 同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
- 参考スコア(独自算出の注目度): 59.37775534633868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of Modular Deep Learning showcases its potential in various Natural Language Processing applications. Parameter-efficient fine-tuning (PEFT) modularity has been shown to work for various use cases, from domain adaptation to multilingual setups. However, all this work covers the case where the modular components are trained and deployed within one single Pre-trained Language Model (PLM). This model-specific setup is a substantial limitation on the very modularity that modular architectures are trying to achieve. We ask whether current modular approaches are transferable between models and whether we can transfer the modules from more robust and larger PLMs to smaller ones. In this work, we aim to fill this gap via a lens of Knowledge Distillation, commonly used for model compression, and present an extremely straightforward approach to transferring pre-trained, task-specific PEFT modules between same-family PLMs. Moreover, we propose a method that allows the transfer of modules between incompatible PLMs without any change in the inference complexity. The experiments on Named Entity Recognition, Natural Language Inference, and Paraphrase Identification tasks over multiple languages and PEFT methods showcase the initial potential of transferable modularity.
- Abstract(参考訳): Modular Deep Learningの台頭は、様々な自然言語処理アプリケーションにおけるその可能性を示している。
パラメータ効率細調整(PEFT)のモジュラリティは、ドメイン適応から多言語設定まで、さまざまなユースケースで有効であることが示されている。
しかしながら、これらの作業はすべて、モジュールコンポーネントがトレーニングされ、1つのトレーニング済み言語モデル(PLM)内にデプロイされる場合をカバーする。
このモデル固有のセットアップは、モジュラーアーキテクチャが達成しようとしている、非常にモジュール性に関する大きな制限となります。
現在のモジュラーアプローチがモデル間で転送可能であるか、より堅牢でより大きなPLMからより小さなPLMへモジュールを転送できるかどうかを問う。
本研究では,モデル圧縮によく用いられる知識蒸留のレンズを用いて,このギャップを埋めることを目的としている。
さらに,不適合なPLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
Named Entity Recognition, Natural Language Inference, Paraphrase Identification task over multiple languages and PEFT methodという実験は、転送可能なモジュラリティの最初の可能性を示している。
関連論文リスト
- Assessing the Portability of Parameter Matrices Trained by
Parameter-Efficient Finetuning Methods [6.653947064461629]
タスク固有の知識をあるモデルから別のモデルにエンコードする機能モジュール全体を移植する。
我々は,パラメータ効率の微調整(PEFT)技術で訓練されたモジュールの可搬性をテストするために,1,440のトレーニング/テストランからなる研究を設計した。
移植したモジュールは2つの代替品よりはるかに優れているが,4つのPEFT技術の間には興味深い性能差がある。
論文 参考訳(メタデータ) (2024-01-25T15:11:07Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models [74.48765681246947]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Unlocking Emergent Modularity in Large Language Models [27.12431620957652]
標準言語モデル(LM)は、余分なパラメータを導入することなく、Mixture-of-Expert(MoEs)として微調整できることを示す。
実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
論文 参考訳(メタデータ) (2023-10-17T01:02:32Z) - Module-wise Adaptive Distillation for Multimodality Foundation Models [125.42414892566843]
マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
論文 参考訳(メタデータ) (2023-10-06T19:24:00Z) - Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。
このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。
LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-06-26T17:33:21Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。