論文の概要: Wide Attention Is The Way Forward For Transformers
- arxiv url: http://arxiv.org/abs/2210.00640v1
- Date: Sun, 2 Oct 2022 21:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:27:13.078710
- Title: Wide Attention Is The Way Forward For Transformers
- Title(参考訳): 変圧器を前方に向ける「ワイド・アテンション」
- Authors: Jason Ross Brown, Yiren Zhao, Ilia Shumailov, Robert D Mullins
- Abstract要約: 幅広い単一層トランスフォーマーモデルでは,自然言語処理(NLP)タスクにおいて,より深い処理と競合したり,より優れたりすることを示す。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
- 参考スコア(独自算出の注目度): 9.252523881586054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Transformer is an extremely powerful and prominent deep learning
architecture. In this work, we challenge the commonly held belief in deep
learning that going deeper is better, and show an alternative design approach
that is building wider attention Transformers. We demonstrate that wide single
layer Transformer models can compete with or outperform deeper ones in a
variety of Natural Language Processing (NLP) tasks when both are trained from
scratch. The impact of changing the model aspect ratio on Transformers is then
studied systematically. This ratio balances the number of layers and the number
of attention heads per layer while keeping the total number of attention heads
and all other hyperparameters constant. On average, across 4 NLP tasks and 10
attention types, single layer wide models perform 0.3% better than their deep
counterparts. We show an in-depth evaluation and demonstrate how wide models
require a far smaller memory footprint and can run faster on commodity
hardware, in addition, these wider models are also more interpretable. For
example, a single layer Transformer on the IMDb byte level text classification
has 3.1x faster inference latency on a CPU than its equally accurate deeper
counterpart, and is half the size. Our results suggest that the critical
direction for building better Transformers for NLP is their width, and that
their depth is less relevant.
- Abstract(参考訳): Transformerは非常に強力で目立ったディープラーニングアーキテクチャである。
本研究では,深層学習がより良くなるという一般的な信念に挑戦し,より広い注意を惹きつけるトランスフォーマーを構築するための代替設計アプローチを示す。
我々は,多種多様な自然言語処理(nlp)タスクにおいて,幅広い単一層トランスフォーマーモデルが,スクラッチから学習した場合に,より深いものと競合するか,あるいは比較可能であることを実証する。
モデルアスペクト比の変化がトランスフォーマーに与える影響を系統的に研究する。
この比は、レイヤー数と1層当たりのアテンションヘッド数とをバランスさせながら、アテンションヘッドの総数と他のすべてのハイパーパラメータを一定に保つ。
4つのNLPタスクと10のアテンションタイプで、シングルレイヤワイドモデルでは、ディープモデルよりも0.3%パフォーマンスが向上している。
広範モデルではメモリフットプリントがはるかに小さく,コモディティハードウェア上で高速に動作可能であることに加えて,より広いモデルでも解釈可能であることを示す。
例えば、imdbのバイトレベルテキスト分類の単一層トランスフォーマは、cpu上での推論遅延が同じ精度の深いものよりも3.1倍高速であり、サイズは半分である。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
関連論文リスト
- An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - Brainformers: Trading Simplicity for Efficiency [39.53511089374572]
我々はBrainformerという名前の複雑なブロックを開発し、多様なレイヤで構成されています。
Brainformerは、最先端の高密度でスパースなTransformerよりも一貫して優れています。
トークンあたり80億のアクティベートパラメータを持つBrainformerモデルは、2倍高速なトレーニング収束と5倍高速なステップタイムを示す。
論文 参考訳(メタデータ) (2023-05-29T18:42:01Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Pay Attention to MLPs [84.54729425918164]
gMLP はキー言語やアプリケーションで Transformer と同等に動作可能であることを示す。
我々の比較では、gMLPが同じ精度を達成できるため、ビジョントランスフォーマーには自己注意が重要でないことが示されている。
一般的な実験では、gMLPはデータと計算量を増やして、Transformerと同様にスケール可能である。
論文 参考訳(メタデータ) (2021-05-17T17:55:04Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。