論文の概要: Go Wider Instead of Deeper
- arxiv url: http://arxiv.org/abs/2107.11817v1
- Date: Sun, 25 Jul 2021 14:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:27:41.690608
- Title: Go Wider Instead of Deeper
- Title(参考訳): より深くではなくより広く行く
- Authors: Fuzhao Xue, Ziji Shi, Yuxuan Lou, Yong Liu, Yang You
- Abstract要約: 我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
- 参考スコア(独自算出の注目度): 12.288490768203241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer has recently achieved impressive results on various tasks. To
further improve the effectiveness and efficiency of the transformer, there are
two trains of thought among existing works: (1) going wider by scaling to more
trainable parameters; (2) going shallower by parameter sharing or model
compressing along with the depth. However, larger models usually do not scale
well when fewer tokens are available to train, and advanced parallelisms are
required when the model is extremely large. Smaller models usually achieve
inferior performance compared to the original transformer model due to the loss
of representation power. In this paper, to achieve better performance with
fewer trainable parameters, we propose a framework to deploy trainable
parameters efficiently, by going wider instead of deeper. Specially, we scale
along model width by replacing feed-forward network (FFN) with
mixture-of-experts (MoE). We then share the MoE layers across transformer
blocks using individual layer normalization. Such deployment plays the role to
transform various semantic representations, which makes the model more
parameter-efficient and effective. To evaluate our framework, we design WideNet
and evaluate it on ImageNet-1K. Our best model outperforms Vision Transformer
(ViT) by $1.46\%$ with $0.72 \times$ trainable parameters. Using $0.46 \times$
and $0.13 \times$ parameters, our WideNet can still surpass ViT and ViT-MoE by
$0.83\%$ and $2.08\%$, respectively.
- Abstract(参考訳): トランスフォーマーは最近、様々なタスクで素晴らしい成果を上げています。
変圧器の有効性と効率をさらに向上させるため,(1)より訓練可能なパラメータに拡大し,(2)パラメータ共有によりより浅く,あるいは深度とともにモデルを圧縮する,という2つの既存の作業が検討されている。
しかし、大きなモデルは、訓練に利用可能なトークンが少ない場合、よくスケールせず、モデルが非常に大きい場合は高度な並列性が必要となる。
小型モデルは通常、表現力の喪失によりオリジナルのトランスモデルに比べて性能が劣る。
本稿では,トレーニング可能なパラメータの少ない性能を実現するために,より深く学習可能なパラメータを効率的にデプロイするフレームワークを提案する。
特に,フィードフォワードネットワーク(FFN)をMixix-of-experts(MoE)に置き換えることで,モデル幅を拡大する。
次に、各層正規化を用いて変換器ブロック間でMoE層を共有します。
このような配置は、様々な意味表現を変換する役割を担い、モデルをよりパラメータ効率よく効果的にする。
このフレームワークを評価するために、WideNetを設計し、ImageNet-1K上で評価する。
私たちの最良のモデルはViT(Vision Transformer)を1.46\%$、0.72 \times$トレーニング可能なパラメータで上回る。
0.46 \times$と0.13 \times$パラメータを使って、WideNetはViTとViT-MoEをそれぞれ0.83\%$と2.08\%$で上回ることができる。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Multi-Path Transformer is Better: A Case Study on Neural Machine
Translation [35.67070351304121]
パラメータ効率のよいマルチパス構造を用いて,モデル幅がトランスフォーマーモデルに与える影響について検討した。
12のWMT機械翻訳タスクの実験では、同じ数のパラメータで、より浅いマルチパスモデルが、より深いモデルよりも類似またはより優れた性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-10T07:39:57Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Sliced Recursive Transformer [23.899076070924153]
視覚変換器における再帰操作は、追加パラメータを伴わずにパラメータ利用を改善することができる。
我々のモデル Sliced Recursive Transformer (SReT) は、効率的な視覚変換のための様々な設計と互換性がある。
論文 参考訳(メタデータ) (2021-11-09T17:59:14Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Recurrent multiple shared layers in Depth for Neural Machine Translation [11.660776324473645]
本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。
深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。
論文 参考訳(メタデータ) (2021-08-23T21:21:45Z) - Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。
我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文 参考訳(メタデータ) (2021-07-15T04:23:59Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。