論文の概要: Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
- arxiv url: http://arxiv.org/abs/2404.02258v1
- Date: Tue, 2 Apr 2024 19:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-04 19:28:46.482117
- Title: Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
- Title(参考訳): Mixture-of-Depths: トランスフォーマーに基づく言語モデルにおける動的割当計算
- Authors: David Raposo, Sam Ritter, Blake Richards, Timothy Lillicrap, Peter Conway Humphreys, Adam Santoro,
- Abstract要約: トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
変換器はシーケンス内の特定の位置にFLOPを動的に割り当てることが可能であることを示す。
- 参考スコア(独自算出の注目度): 8.774705201394916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models spread FLOPs uniformly across input sequences. In this work we demonstrate that transformers can instead learn to dynamically allocate FLOPs (or compute) to specific positions in a sequence, optimising the allocation along the sequence for different layers across the model depth. Our method enforces a total compute budget by capping the number of tokens ($k$) that can participate in the self-attention and MLP computations at a given layer. The tokens to be processed are determined by the network using a top-$k$ routing mechanism. Since $k$ is defined a priori, this simple procedure uses a static computation graph with known tensor sizes, unlike other conditional computation techniques. Nevertheless, since the identities of the $k$ tokens are fluid, this method can expend FLOPs non-uniformly across the time and model depth dimensions. Thus, compute expenditure is entirely predictable in sum total, but dynamic and context-sensitive at the token-level. Not only do models trained in this way learn to dynamically allocate compute, they do so efficiently. These models match baseline performance for equivalent FLOPS and wall-clock times to train, but require a fraction of the FLOPs per forward pass, and can be upwards of 50\% faster to step during post-training sampling.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
この研究で、変換器は、シーケンス内の特定の位置にFLOP(または計算)を動的に割り当てることを学び、モデルの深さを越えて異なるレイヤの配列に沿って割り当てを最適化する。
提案手法では,各層における自己注意計算やMLP計算に参加するトークン数(k$)をカプセル化することにより,計算予算の合計化を図る。
処理対象のトークンは、トップ$kのルーティングメカニズムを使用してネットワークによって決定される。
k$は優先順位を定義するため、この単純な手順は既知のテンソルサイズを持つ静的な計算グラフを使用する。
しかしながら、$k$トークンの同一性は流動であるため、この手法はFLOPを時間とモデルの深さの次元で一様に拡張することができる。
したがって、計算支出は総和で完全に予測可能であるが、トークンレベルでは動的で文脈に敏感である。
この方法でトレーニングされたモデルは、計算を動的に割り当てることを学ぶだけでなく、効率的に行う。
これらのモデルは、同等のFLOPSとウォールクロックタイムのベースライン性能に適合するが、フォワードパスあたりのFLOPはごく一部必要であり、トレーニング後のサンプリングでは50\%以上の速度で進むことができる。
関連論文リスト
- ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation [12.503747711792679]
ConceptMoEは意味的に類似したトークンを概念表現に動的にマージする。
学習可能なチャンクモジュールは、トークン間の類似度を測定して最適な境界を識別する。
ConceptMoE は言語および視覚言語タスクで標準 MoE を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T08:58:22Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Subjective Depth and Timescale Transformers: Learning Where and When to Compute [15.164635408299304]
主観的深度変換器(SDT)と主観的時間スケール変換器(STT)を紹介する。
SDTとSTTはベイジアン・サプライズ信号を利用して動的に計算をルーティングし、デコーダのみのTF内で計算する場所とタイミングを学習する。
提案したアーキテクチャは,効率向上のためのフレキシブルなフレームワークを確立し,各計算スキップ層内で自己注意計算を75%,KVキャッシュ要求を50%削減し,より効率的なモデルのための経路を設定する。
論文 参考訳(メタデータ) (2025-11-26T14:00:18Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [53.925413758281096]
LrcSSMは$textitnonlinear$recurrentモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Adaptive Computation Modules: Granular Conditional Computation For
Efficient Inference [13.000030080938078]
トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-15T20:39:43Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli
Sampling [38.34914626128062]
本研究では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。
提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習型変換器と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2021-11-18T14:24:34Z) - Classification and Feature Transformation with Fuzzy Cognitive Maps [0.3299672391663526]
Fuzzy Cognitive Maps(FCM)は、ファジィ論理と繰り返しニューラルネットワークの要素を組み合わせたソフトコンピューティング技術と考えられている。
本研究では,フルコネクテッドマップ構造を有するFCMに基づく分類器を提案する。
重みを勾配アルゴリズムで学習し,コスト関数としてloglossやcross-entropyを用いた。
論文 参考訳(メタデータ) (2021-03-08T22:26:24Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Dynamic Tensor Rematerialization [11.204761128308542]
チェックポイントにより、制限されたメモリ予算下でのディープラーニングモデルのトレーニングが可能になる。
現在のチェックポイント技術は、これらの再計算をオフラインで静的に計画し、静的グラフを仮定する。
我々は、動的リマテリアル化(DTR)を導入することで、簡単なオンラインアルゴリズムが同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2020-06-17T02:49:59Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。