Fugu-MT 論文翻訳(概要): Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers

論文の概要: Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers

arxiv url: http://arxiv.org/abs/2404.02684v1
Date: Wed, 3 Apr 2024 12:27:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 17:31:03.070262
Title: Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers
Title（参考訳）: リニアコスト推論変換器のクロスアーキテクチャ変換学習
Authors: Sehyun Choi,
Abstract要約: 本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。 Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
参考スコア（独自算出の注目度）: 1.1499643186017316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, multiple architectures has been proposed to improve the efficiency of the Transformer Language Models through changing the design of the self-attention block to have a linear-cost inference (LCI). A notable approach in this realm is the State-Space Machines (SSMs) architecture, which showed on-par performance on language modeling tasks with the self-attention transformers. However, such an architectural change requires a full pretraining of the weights from scratch, which incurs a huge cost to researchers and practitioners who want to use the new architectures. In the more traditional linear attention works, it has been proposed to approximate full attention with linear attention by swap-and-finetune framework. Motivated by this approach, we propose Cross-Architecture Transfer Learning (XATL), in which the weights of the shared components between LCI and self-attention-based transformers, such as layernorms, MLPs, input/output embeddings, are directly transferred to the new architecture from already pre-trained model parameters. We experimented the efficacy of the method on varying sizes and alternative attention architectures and show that \methodabbr significantly reduces the training time up to 2.5x times and converges to a better minimum with up to 2.6% stronger model on the LM benchmarks within the same compute budget.
Abstract（参考訳）: 近年,線形コスト推論(LCI)を実現するために自己注意ブロックの設計を変更することで,トランスフォーマー言語モデルの効率を向上させるために,複数のアーキテクチャが提案されている。この領域で注目すべきアプローチは、ステートスペースマシン(SSM)アーキテクチャであり、自己注意変換器を用いた言語モデリングタスクのオンパーパフォーマンスを示している。しかし、そのようなアーキテクチャの変更は、スクラッチからウェイトを完全に事前トレーニングする必要があるため、新しいアーキテクチャを使いたい研究者や実践者には大きなコストがかかる。より伝統的な線形アテンション研究において、スワップ・アンド・ファイントゥン・フレームワークにより、線形アテンションを線形アテンションに近似することが提案されている。提案手法は,レイヤノルム,MLP,入出力埋め込みなど,LCIと自己注意型トランスフォーマー間の共有コンポーネントの重み付けを,すでに訓練済みのモデルパラメータから新しいアーキテクチャへ直接転送するクロスアーキテクチャトランスフォーメーション学習(XATL)を提案する。提案手法は, 異なるサイズと他の注目アーキテクチャに対して有効であり, トレーニング時間を最大2.5倍に短縮し, 同じ計算予算内でのLMベンチマークにおいて最大2.6%の精度で, より優れた最小値に収束することを示した。

関連論文リスト

Exploring Diffusion Transformer Designs via Grafting [82.91123758506876]
計算予算の少ない新しいアーキテクチャを実現するために,事前に訓練された拡散変換器(DiT)を編集する簡単な手法であるグラフト方式を提案する。演算子置換からアーキテクチャ再構成に至るまで,事前訓練したDiTをグラフトすることで,新しい拡散モデルの設計を探索できることが示されている。
論文参考訳（メタデータ） (2025-06-05T17:59:40Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。 STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文参考訳（メタデータ） (2024-11-26T18:42:42Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
Symmetric Dot-Product Attention for Efficient Training of BERT Language Models [5.838117137253223]
本稿では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。 BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークで79.36点に達し、従来の実装では78.74点だった。
論文参考訳（メタデータ） (2024-06-10T15:24:15Z)
Activator: GLU Activation Function as the Core Component of a Vision Transformer [1.3812010983144802]
トランスフォーマーアーキテクチャは現在、ディープラーニングによって対処されるさまざまなタスクにおいて、多くの成功の背後にある主要なドライバである。本稿では,多層パーセプトロンアーキテクチャに線形ゲートユニット(GLU)アクティベーションを組み込んだ変圧器アーキテクチャに通常採用されるアテンション機構の置換について検討する。
論文参考訳（メタデータ） (2024-05-24T21:46:52Z)
Towards smaller, faster decoder-only transformers: Architectural variants and their implications [0.0]
本稿では,デコーダのみのトランスアーキテクチャであるParallelGPT,LinearGPT,ConvGPTの3つの改良点を紹介する。これらのバリエーションは、言語生成における従来のアーキテクチャと同等のパフォーマンスを示すが、モデルのサイズを縮小し、より高速なトレーニングプロセスの恩恵を受ける。
論文参考訳（メタデータ） (2024-04-22T06:19:46Z)
AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning [7.886461196772644]
コンテクストに依存しない推論コストを提供するトランスフォーマー自己アテンション機構の代替を提案する。最先端アーキテクチャであるGTrXLと比較して、我々のアプローチでの推論は少なくとも40%安価であり、メモリ使用量を50%以上削減している。
論文参考訳（メタデータ） (2023-10-24T10:51:50Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然であるこの問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文参考訳（メタデータ） (2022-07-12T02:50:48Z)
Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-06-14T06:28:04Z)
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。 GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文参考訳（メタデータ） (2022-03-02T13:44:49Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。