論文の概要: MatFormer: Nested Transformer for Elastic Inference
- arxiv url: http://arxiv.org/abs/2310.07707v1
- Date: Wed, 11 Oct 2023 17:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 21:17:18.888998
- Title: MatFormer: Nested Transformer for Elastic Inference
- Title(参考訳): MatFormer: 弾性推論のためのNested Transformer
- Authors: Devvrit, Sneha Kudugunta, Aditya Kusupati, Tim Dettmers, Kaifeng Chen,
Inderjit Dhillon, Yulia Tsvetkov, Hannaneh Hajishirzi, Sham Kakade, Ali
Farhadi, Prateek Jain
- Abstract要約: MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
- 参考スコア(独自算出の注目度): 94.1789252941718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models are deployed in a wide range of settings, from
multi-accelerator clusters to standalone mobile phones. The diverse inference
constraints in these scenarios necessitate practitioners to train foundation
models such as PaLM 2, Llama, & ViTs as a series of models of varying sizes.
Due to significant training costs, only a select few model sizes are trained
and supported, limiting more fine-grained control over relevant tradeoffs,
including latency, cost, and accuracy. This work introduces MatFormer, a nested
Transformer architecture designed to offer elasticity in a variety of
deployment constraints. Each Feed Forward Network (FFN) block of a MatFormer
model is jointly optimized with a few nested smaller FFN blocks. This training
procedure allows for the Mix'n'Match of model granularities across layers --
i.e., a trained universal MatFormer model enables extraction of hundreds of
accurate smaller models, which were never explicitly optimized. We empirically
demonstrate MatFormer's effectiveness across different model classes (decoders
& encoders), modalities (language & vision), and scales (up to 2.6B
parameters). We find that a 2.6B decoder-only MatFormer language model (MatLM)
allows us to extract smaller models spanning from 1.5B to 2.6B, each exhibiting
comparable validation loss and one-shot downstream evaluations to their
independently trained counterparts. Furthermore, we observe that smaller
encoders extracted from a universal MatFormer-based ViT (MatViT) encoder
preserve the metric-space structure for adaptive large-scale retrieval.
Finally, we showcase that speculative decoding with the accurate and consistent
submodels extracted from MatFormer can further reduce inference latency.
- Abstract(参考訳): Transformerモデルは、マルチアクセラレータクラスタからスタンドアロンの携帯電話まで、幅広い設定でデプロイされる。
これらのシナリオにおける様々な推論の制約は、様々なサイズのモデルの一連のモデルとして、PaLM、Llama、ViTsといった基礎モデルをトレーニングする必要がある。
大幅なトレーニングコストのため、レイテンシ、コスト、正確性など、関連するトレードオフに対するよりきめ細かい制御を制限するため、トレーニングとサポート対象モデルのサイズはごくわずかである。
この本では、さまざまなデプロイメント制約に対して弾力性を提供するように設計された入れ子型トランスフォーマーアーキテクチャであるmatformerを紹介している。
MatFormerモデルの各Feed Forward Network(FFN)ブロックは、ネストされた小さなFFNブロックで共同最適化される。
このトレーニング手順は、レイヤー間のモデルの粒度の混合、すなわち、トレーニングされたユニバーサルマットフォーマーモデルは、明示的に最適化されなかった数百の正確なより小さなモデルの抽出を可能にする。
異なるモデルクラス(デコーダとエンコーダ)、モダリティ(言語とビジョン)、スケール(最大2.6bのパラメータ)において、matformerの有効性を実証的に実証する。
2.6BデコーダのみのMatFormer言語モデル(MatLM)により、1.5Bから2.6Bまでの小さなモデルを抽出できることがわかった。
さらに,MatchFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
最後に,matformerから抽出した精度と一貫性を備えたサブモデルによる投機的復号により,推論遅延がさらに低減されることを示す。
関連論文リスト
- MatMamba: A Matryoshka State Space Model [24.85566171753877]
MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。
MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。
言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
論文 参考訳(メタデータ) (2024-10-09T09:41:34Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。