論文の概要: Attention Is All You Need For Mixture-of-Depths Routing
- arxiv url: http://arxiv.org/abs/2412.20875v1
- Date: Mon, 30 Dec 2024 11:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:03.332396
- Title: Attention Is All You Need For Mixture-of-Depths Routing
- Title(参考訳): 奥行きを混在させるには注意が必要だ
- Authors: Advait Gadhikar, Souptik Kumar Majumdar, Niclas Popp, Piyapat Saranrittichai, Martin Rapp, Lukas Schott,
- Abstract要約: 本稿では,新しいアテンションベースのルーティング機構A-MoDを提案する。
A-MoDはトレーニング可能なパラメータを追加しないため、より効率的なトレーニングを可能にする。
これにより、MoDモデルの性能が向上する。
- 参考スコア(独自算出の注目度): 5.419910566904439
- License:
- Abstract: Advancements in deep learning are driven by training models with increasingly larger numbers of parameters, which in turn heightens the computational demands. To address this issue, Mixture-of-Depths (MoD) models have been proposed to dynamically assign computations only to the most relevant parts of the inputs, thereby enabling the deployment of large-parameter models with high efficiency during inference and training. These MoD models utilize a routing mechanism to determine which tokens should be processed by a layer, or skipped. However, conventional MoD models employ additional network layers specifically for the routing which are difficult to train, and add complexity and deployment overhead to the model. In this paper, we introduce a novel attention-based routing mechanism A-MoD that leverages the existing attention map of the preceding layer for routing decisions within the current layer. Compared to standard routing, A-MoD allows for more efficient training as it introduces no additional trainable parameters and can be easily adapted from pretrained transformer models. Furthermore, it can increase the performance of the MoD model. For instance, we observe up to 2% higher accuracy on ImageNet compared to standard routing and isoFLOP ViT baselines. Furthermore, A-MoD improves the MoD training convergence, leading to up to 2x faster transfer learning.
- Abstract(参考訳): ディープラーニングの進歩は、ますます多くのパラメータを持つトレーニングモデルによって駆動される。
この問題に対処するため、Mixture-of-Depths(MoD)モデルが提案され、入力の最も関連性の高い部分にのみ動的に計算を割り当てることによって、推論とトレーニングの間に高い効率で大規模パラメータモデルのデプロイが可能になる。
これらのMoDモデルはルーティング機構を使用して、どのトークンを層によって処理するか、スキップするかを決定する。
しかし、従来のMoDモデルは、訓練が難しいルーティングのために、追加のネットワーク層を使用し、モデルに複雑さとデプロイメントのオーバーヘッドを追加する。
本稿では,従来のアテンションマップを利用したアテンションベースのルーティング機構A-MoDを導入し,現在のレイヤ内でのルーティング決定を行う。
通常のルーティングと比較して、A-MoDはトレーニング可能な追加パラメータを導入せず、事前訓練されたトランスフォーマーモデルから容易に適応できるため、より効率的なトレーニングを可能にする。
さらに、MoDモデルの性能を向上させることができる。
例えば、標準的なルーティングやイソFLOP ViTベースラインと比較して、ImageNetでは最大2%高い精度で観察できる。
さらに、A-MoDはMoDトレーニング収束を改善し、最大で2倍高速な転送学習を実現する。
関連論文リスト
- LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。
100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-08-08T07:37:26Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Tram-FL: Routing-based Model Training for Decentralized Federated
Learning [2.8558942410497066]
そこで我々は,ノード間で順次転送することで,グローバルモデルを段階的に洗練する新しいDFL手法であるTram-FLを提案する。
また、最小転送量でモデル精度を向上させることを目的とした最適経路選択のための動的モデルルーティングアルゴリズムも導入する。
MNIST, CIFAR-10, IMDbデータセットを用いた実験により, 提案したルーティングを用いたトラムFLが非IID条件下で高いモデル精度を実現することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:51:07Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training [18.68993910156101]
大規模MoEトレーニングのためのトポロジ対応ルーティング戦略であるTA-MoEを提案する。
TA-MoEは,様々なハードウェアやモデル構成において,その性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:18:24Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。