論文の概要: Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
- arxiv url: http://arxiv.org/abs/2404.02258v1
- Date: Tue, 2 Apr 2024 19:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:28:46.482117
- Title: Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
- Title(参考訳): Mixture-of-Depths: トランスフォーマーに基づく言語モデルにおける動的割当計算
- Authors: David Raposo, Sam Ritter, Blake Richards, Timothy Lillicrap, Peter Conway Humphreys, Adam Santoro,
- Abstract要約: トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
変換器はシーケンス内の特定の位置にFLOPを動的に割り当てることが可能であることを示す。
- 参考スコア(独自算出の注目度): 8.774705201394916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models spread FLOPs uniformly across input sequences. In this work we demonstrate that transformers can instead learn to dynamically allocate FLOPs (or compute) to specific positions in a sequence, optimising the allocation along the sequence for different layers across the model depth. Our method enforces a total compute budget by capping the number of tokens ($k$) that can participate in the self-attention and MLP computations at a given layer. The tokens to be processed are determined by the network using a top-$k$ routing mechanism. Since $k$ is defined a priori, this simple procedure uses a static computation graph with known tensor sizes, unlike other conditional computation techniques. Nevertheless, since the identities of the $k$ tokens are fluid, this method can expend FLOPs non-uniformly across the time and model depth dimensions. Thus, compute expenditure is entirely predictable in sum total, but dynamic and context-sensitive at the token-level. Not only do models trained in this way learn to dynamically allocate compute, they do so efficiently. These models match baseline performance for equivalent FLOPS and wall-clock times to train, but require a fraction of the FLOPs per forward pass, and can be upwards of 50\% faster to step during post-training sampling.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
この研究で、変換器は、シーケンス内の特定の位置にFLOP(または計算)を動的に割り当てることを学び、モデルの深さを越えて異なるレイヤの配列に沿って割り当てを最適化する。
提案手法では,各層における自己注意計算やMLP計算に参加するトークン数(k$)をカプセル化することにより,計算予算の合計化を図る。
処理対象のトークンは、トップ$kのルーティングメカニズムを使用してネットワークによって決定される。
k$は優先順位を定義するため、この単純な手順は既知のテンソルサイズを持つ静的な計算グラフを使用する。
しかしながら、$k$トークンの同一性は流動であるため、この手法はFLOPを時間とモデルの深さの次元で一様に拡張することができる。
したがって、計算支出は総和で完全に予測可能であるが、トークンレベルでは動的で文脈に敏感である。
この方法でトレーニングされたモデルは、計算を動的に割り当てることを学ぶだけでなく、効率的に行う。
これらのモデルは、同等のFLOPSとウォールクロックタイムのベースライン性能に適合するが、フォワードパスあたりのFLOPはごく一部必要であり、トレーニング後のサンプリングでは50\%以上の速度で進むことができる。
関連論文リスト
- Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Adaptive Computation Modules: Granular Conditional Computation For
Efficient Inference [13.000030080938078]
トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-15T20:39:43Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli
Sampling [38.34914626128062]
本研究では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。
提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習型変換器と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2021-11-18T14:24:34Z) - Classification and Feature Transformation with Fuzzy Cognitive Maps [0.3299672391663526]
Fuzzy Cognitive Maps(FCM)は、ファジィ論理と繰り返しニューラルネットワークの要素を組み合わせたソフトコンピューティング技術と考えられている。
本研究では,フルコネクテッドマップ構造を有するFCMに基づく分類器を提案する。
重みを勾配アルゴリズムで学習し,コスト関数としてloglossやcross-entropyを用いた。
論文 参考訳(メタデータ) (2021-03-08T22:26:24Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Dynamic Tensor Rematerialization [11.204761128308542]
チェックポイントにより、制限されたメモリ予算下でのディープラーニングモデルのトレーニングが可能になる。
現在のチェックポイント技術は、これらの再計算をオフラインで静的に計画し、静的グラフを仮定する。
我々は、動的リマテリアル化(DTR)を導入することで、簡単なオンラインアルゴリズムが同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2020-06-17T02:49:59Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。