論文の概要: Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference
- arxiv url: http://arxiv.org/abs/2306.02379v1
- Date: Sun, 4 Jun 2023 15:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:16:52.017382
- Title: Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference
- Title(参考訳): Modular Transformer: 柔軟推論のためのModularized Layerにトランスフォーマーを圧縮する
- Authors: Wangchunshu Zhou, Ronan Le Bras, Yejin Choi
- Abstract要約: 本稿では,フレキシブルシーケンス・ツー・シーケンス・モデル圧縮のためのモジュール化エンコーダ・デコーダ・フレームワークであるModular Transformersを紹介する。
単一のトレーニングフェーズの後、Modular Transformerは1.1xから6xまでのフレキシブルな圧縮比を、相対的な相対的な性能低下の少ない状態で達成することができる。
- 参考スコア(独自算出の注目度): 83.01121484432801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Transformer models like T5 and BART have advanced the state of
the art on a wide range of text generation tasks. Compressing these models into
smaller ones has become critically important for practical use. Common neural
network compression techniques such as knowledge distillation or quantization
are limited to static compression where the compression ratio is fixed. In this
paper, we introduce Modular Transformers, a modularized encoder-decoder
framework for flexible sequence-to-sequence model compression. Modular
Transformers train modularized layers that have the same function of two or
more consecutive layers in the original model via module replacing and
knowledge distillation. After training, the modularized layers can be flexibly
assembled into sequence-to-sequence models that meet different
performance-efficiency trade-offs. Experimental results show that after a
single training phase, by simply varying the assembling strategy, Modular
Transformers can achieve flexible compression ratios from 1.1x to 6x with
little to moderate relative performance drop.
- Abstract(参考訳): T5やBARTのような事前訓練されたトランスフォーマーモデルは、幅広いテキスト生成タスクで最先端の技術を進歩させた。
これらのモデルを小さなモデルに圧縮することは、実用上極めて重要である。
知識蒸留や量子化のような一般的なニューラルネットワーク圧縮技術は、圧縮比が固定された静的圧縮に限られる。
本稿では,フレキシブルシーケンスツーシーケンスモデル圧縮のためのモジュール化エンコーダ・デコーダフレームワークであるmodular transformersを提案する。
モジュラートランスフォーマーはモジュール交換と知識蒸留を通じて、元のモデルで2つ以上の連続した層と同じ機能を持つモジュール化された層を訓練する。
トレーニング後、モジュール化されたレイヤは、異なるパフォーマンス効率のトレードオフを満たすシーケンスからシーケンスへのモデルに柔軟に組み立てることができる。
実験結果から, 単一トレーニングフェーズ後, 組み立て戦略を変更すれば, モジュールトランスフォーマーは1.1xから6xまでのフレキシブル圧縮比を, 相対的な相対的な性能低下の少ない状態で達成できることがわかった。
関連論文リスト
- ElastiFormer: Learned Redundancy Reduction in Transformer via Self-Distillation [0.6281017402518722]
ElastiFormerは、トレーニング済みのTransformerモデルを、可変推論時間計算と弾力性のあるものに適合させる。
ルーティングモジュールは、事前訓練されたモデルの出力と弾力性のあるモジュールとの差を最小限に抑えるために、自己蒸留損失を使用して訓練される。
論文 参考訳(メタデータ) (2024-11-22T16:11:14Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - USDC: Unified Static and Dynamic Compression for Visual Transformer [17.10536016262485]
ビジュアルトランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。
しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。
様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接より小さく圧縮することに重点を置いているが、圧縮比が大きいと性能が劇的に低下する。
動的ネットワーク技術もいくつか適用されており、入力適応効率のよいサブ構造を得るために動的に圧縮し、圧縮比とモデル性能のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2023-10-17T10:04:47Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。