論文の概要: Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference
- arxiv url: http://arxiv.org/abs/2306.02379v1
- Date: Sun, 4 Jun 2023 15:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:16:52.017382
- Title: Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference
- Title(参考訳): Modular Transformer: 柔軟推論のためのModularized Layerにトランスフォーマーを圧縮する
- Authors: Wangchunshu Zhou, Ronan Le Bras, Yejin Choi
- Abstract要約: 本稿では,フレキシブルシーケンス・ツー・シーケンス・モデル圧縮のためのモジュール化エンコーダ・デコーダ・フレームワークであるModular Transformersを紹介する。
単一のトレーニングフェーズの後、Modular Transformerは1.1xから6xまでのフレキシブルな圧縮比を、相対的な相対的な性能低下の少ない状態で達成することができる。
- 参考スコア(独自算出の注目度): 83.01121484432801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Transformer models like T5 and BART have advanced the state of
the art on a wide range of text generation tasks. Compressing these models into
smaller ones has become critically important for practical use. Common neural
network compression techniques such as knowledge distillation or quantization
are limited to static compression where the compression ratio is fixed. In this
paper, we introduce Modular Transformers, a modularized encoder-decoder
framework for flexible sequence-to-sequence model compression. Modular
Transformers train modularized layers that have the same function of two or
more consecutive layers in the original model via module replacing and
knowledge distillation. After training, the modularized layers can be flexibly
assembled into sequence-to-sequence models that meet different
performance-efficiency trade-offs. Experimental results show that after a
single training phase, by simply varying the assembling strategy, Modular
Transformers can achieve flexible compression ratios from 1.1x to 6x with
little to moderate relative performance drop.
- Abstract(参考訳): T5やBARTのような事前訓練されたトランスフォーマーモデルは、幅広いテキスト生成タスクで最先端の技術を進歩させた。
これらのモデルを小さなモデルに圧縮することは、実用上極めて重要である。
知識蒸留や量子化のような一般的なニューラルネットワーク圧縮技術は、圧縮比が固定された静的圧縮に限られる。
本稿では,フレキシブルシーケンスツーシーケンスモデル圧縮のためのモジュール化エンコーダ・デコーダフレームワークであるmodular transformersを提案する。
モジュラートランスフォーマーはモジュール交換と知識蒸留を通じて、元のモデルで2つ以上の連続した層と同じ機能を持つモジュール化された層を訓練する。
トレーニング後、モジュール化されたレイヤは、異なるパフォーマンス効率のトレードオフを満たすシーケンスからシーケンスへのモデルに柔軟に組み立てることができる。
実験結果から, 単一トレーニングフェーズ後, 組み立て戦略を変更すれば, モジュールトランスフォーマーは1.1xから6xまでのフレキシブル圧縮比を, 相対的な相対的な性能低下の少ない状態で達成できることがわかった。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
Transformerアーキテクチャに基づく大規模モデルは、人工知能においてますます重要な役割を担っている。
モデル圧縮法はメモリと計算コストを削減し、実用的なデバイス上でトランスフォーマーモデルを実装するために必要なステップである。
このサーベイは、最近の圧縮手法の包括的なレビューを提供し、トランスフォーマーモデルへの適用に特に焦点をあてている。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Simplifying Transformer Blocks [35.97497610123016]
この作業では、標準のトランスフォーマーブロックをどの程度単純化できるかを問う。
トレーニング速度を損なうことなく、多くのブロックコンポーネントを削除できる修正をモチベーションします。
自己回帰デコーダオンリーモデルとBERTエンコーダオンリーモデルの両方の実験では,更新時間当たりのトレーニング速度と性能を簡易化したトランスフォーマをエミュレートした。
論文 参考訳(メタデータ) (2023-11-03T13:30:52Z) - USDC: Unified Static and Dynamic Compression for Visual Transformer [17.10536016262485]
ビジュアルトランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。
しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。
様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接より小さく圧縮することに重点を置いているが、圧縮比が大きいと性能が劇的に低下する。
動的ネットワーク技術もいくつか適用されており、入力適応効率のよいサブ構造を得るために動的に圧縮し、圧縮比とモデル性能のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2023-10-17T10:04:47Z) - Transformer Fusion with Optimal Transport [21.522230384127347]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では,複数のトランスポートを利用したトランスフォーマーネットワークを融合する手法を提案する。
我々のアプローチはバニラ融合を一貫して上回り、驚くほど短い微調整の後、個々の収束親モデルも上回ります。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - ModeT: Learning Deformable Image Registration via Motion Decomposition
Transformer [7.629385629884155]
本稿では,複数のモーダルを明示的にモデル化する新しい動作分解変換器 (ModeT) を提案する。
提案手法は,現状の登録ネットワークやトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2023-06-09T06:00:05Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。