論文の概要: Leaner Transformers: More Heads, Less Depth
- arxiv url: http://arxiv.org/abs/2505.20802v1
- Date: Tue, 27 May 2025 07:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.461364
- Title: Leaner Transformers: More Heads, Less Depth
- Title(参考訳): リーントランスフォーマー: より多くの頭と深さの削減
- Authors: Hemanth Saratchandran, Damien Teney, Simon Lucey,
- Abstract要約: トランスフォーマーは、大規模なデータセットで複雑なパターンをキャプチャするアテンションメカニズムを利用することで、機械学習を再構築した。
本稿では,既存の変圧器の多くが必然的に過大であることを示すことによって,この信念に挑戦する。
この理論的な洞察を活用して、多くの頭を抱えた一般的なアーキテクチャを再設計します。
- 参考スコア(独自算出の注目度): 39.80661571556767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have reshaped machine learning by utilizing attention mechanisms to capture complex patterns in large datasets, leading to significant improvements in performance. This success has contributed to the belief that "bigger means better", leading to ever-increasing model sizes. This paper challenge this ideology by showing that many existing transformers might be unnecessarily oversized. We discover a theoretical principle that redefines the role of multi-head attention. An important benefit of the multiple heads is in improving the conditioning of the attention block. We exploit this theoretical insight and redesign popular architectures with an increased number of heads. The improvement in the conditioning proves so significant in practice that model depth can be decreased, reducing the parameter count by up to 30-50% while maintaining accuracy. We obtain consistent benefits across a variety of transformer-based architectures of various scales, on tasks in computer vision (ImageNet-1k) as well as language and sequence modeling (GLUE benchmark, TinyStories, and the Long-Range Arena benchmark).
- Abstract(参考訳): トランスフォーマーは、大きなデータセットの複雑なパターンをキャプチャするアテンションメカニズムを利用して機械学習を再構築し、パフォーマンスを大幅に改善した。
この成功は、"より大きなものはより良い意味を持つ"という信念に寄与し、モデルのサイズが永遠に増加することに繋がった。
このイデオロギーに対して,既存の変圧器の多くが必然的に過大サイズであることを示すことで,このイデオロギーに挑戦する。
我々はマルチヘッドアテンションの役割を再定義する理論原理を発見した。
複数のヘッドの重要な利点は、アテンションブロックのコンディショニングを改善することである。
この理論的な洞察を活用して、多くの頭を抱えた一般的なアーキテクチャを再設計します。
条件付けの改善は、実際に非常に重要であり、モデルの深さを減少させ、パラメータ数を最大30~50%削減し、精度を維持できる。
コンピュータビジョン(ImageNet-1k)のタスクや言語およびシーケンスモデリング(GLUEベンチマーク、TinyStories、Long-Range Arenaベンチマーク)のタスクにおいて、様々なスケールのトランスフォーマーベースのアーキテクチャに対して一貫した利点を得る。
関連論文リスト
- Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文 参考訳(メタデータ) (2023-06-22T14:39:04Z) - Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - Wide Attention Is The Way Forward For Transformers [9.252523881586054]
幅広い単一層トランスフォーマーモデルでは,自然言語処理(NLP)タスクにおいて,より深い処理と競合したり,より優れたりすることを示す。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
論文 参考訳(メタデータ) (2022-10-02T21:49:54Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision
Transformers [81.31885548824926]
自己注意型モデルであるTransformerは近年,コンピュータビジョン分野における主要なバックボーンになりつつある。
解釈可能性を考慮した冗長度低減フレームワーク(IA-RED$2$)を提案する。
画像タスクとビデオタスクの両方で広範囲に実験を行い、最大1.4倍のスピードアップを実現しました。
論文 参考訳(メタデータ) (2021-06-23T18:29:23Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。