論文の概要: Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers
- arxiv url: http://arxiv.org/abs/2404.02684v1
- Date: Wed, 3 Apr 2024 12:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:31:03.070262
- Title: Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers
- Title(参考訳): リニアコスト推論変換器のクロスアーキテクチャ変換学習
- Authors: Sehyun Choi,
- Abstract要約: 本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
- 参考スコア(独自算出の注目度): 1.1499643186017316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multiple architectures has been proposed to improve the efficiency of the Transformer Language Models through changing the design of the self-attention block to have a linear-cost inference (LCI). A notable approach in this realm is the State-Space Machines (SSMs) architecture, which showed on-par performance on language modeling tasks with the self-attention transformers. However, such an architectural change requires a full pretraining of the weights from scratch, which incurs a huge cost to researchers and practitioners who want to use the new architectures. In the more traditional linear attention works, it has been proposed to approximate full attention with linear attention by swap-and-finetune framework. Motivated by this approach, we propose Cross-Architecture Transfer Learning (XATL), in which the weights of the shared components between LCI and self-attention-based transformers, such as layernorms, MLPs, input/output embeddings, are directly transferred to the new architecture from already pre-trained model parameters. We experimented the efficacy of the method on varying sizes and alternative attention architectures and show that \methodabbr significantly reduces the training time up to 2.5x times and converges to a better minimum with up to 2.6% stronger model on the LM benchmarks within the same compute budget.
- Abstract(参考訳): 近年,線形コスト推論(LCI)を実現するために自己注意ブロックの設計を変更することで,トランスフォーマー言語モデルの効率を向上させるために,複数のアーキテクチャが提案されている。
この領域で注目すべきアプローチは、ステートスペースマシン(SSM)アーキテクチャであり、自己注意変換器を用いた言語モデリングタスクのオンパーパフォーマンスを示している。
しかし、そのようなアーキテクチャの変更は、スクラッチからウェイトを完全に事前トレーニングする必要があるため、新しいアーキテクチャを使いたい研究者や実践者には大きなコストがかかる。
より伝統的な線形アテンション研究において、スワップ・アンド・ファイントゥン・フレームワークにより、線形アテンションを線形アテンションに近似することが提案されている。
提案手法は,レイヤノルム,MLP,入出力埋め込みなど,LCIと自己注意型トランスフォーマー間の共有コンポーネントの重み付けを,すでに訓練済みのモデルパラメータから新しいアーキテクチャへ直接転送するクロスアーキテクチャトランスフォーメーション学習(XATL)を提案する。
提案手法は, 異なるサイズと他の注目アーキテクチャに対して有効であり, トレーニング時間を最大2.5倍に短縮し, 同じ計算予算内でのLMベンチマークにおいて最大2.6%の精度で, より優れた最小値に収束することを示した。
関連論文リスト
- DiJiang: Efficient Large Language Models through Compact Kernelization [30.24187657746638]
本稿では、事前学習したバニラ変換器を、トレーニングコストの少ない線形複雑化モデルに変換するための新しい周波数領域カーネル化手法を提案する。
実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストを大幅に削減し,推論速度を大幅に高速化した。
論文 参考訳(メタデータ) (2024-03-29T02:32:15Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Stochastic Attention Head Removal: A simple and effective method for
improving Transformer Based ASR Models [40.991809705930955]
トレーニング中に無作為にアテンションヘッドを取り除き、全てのアテンションヘッドをテスト時に保持し、最終モデルは異なるアーキテクチャを持つモデルのアンサンブルである。
提案手法は,ウォールストリートジャーナル,AISHELL,Switchboard,AMIデータセットにおいて,強力なベースラインよりも一貫したパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2020-11-08T15:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。