論文の概要: Low-latency vision transformers via large-scale multi-head attention
- arxiv url: http://arxiv.org/abs/2506.23832v1
- Date: Mon, 30 Jun 2025 13:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.072485
- Title: Low-latency vision transformers via large-scale multi-head attention
- Title(参考訳): 大規模マルチヘッドアテンションによる低遅延ビジョントランス
- Authors: Ronit D. Gross, Tal Halevi, Ella Koresh, Yarden Tzach, Ido Kanter,
- Abstract要約: 学習機構は、シングルヘッド性能を表す単一の行列値を用いて、大規模MHA(LS-MHA)に一般化される。
いくつかの異なる視覚変換器(ViT)アーキテクチャは、同じ精度でLS-MHA構造が異なる。
この学習メカニズムを自然言語処理タスクに拡張することは、ディープラーニングに新たな洞察をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of spontaneous symmetry breaking among a few heads of multi-head attention (MHA) across transformer blocks in classification tasks was recently demonstrated through the quantification of single-nodal performance (SNP). This finding indicates that each head focuses its attention on a subset of labels through cooperation among its SNPs. This underlying learning mechanism is generalized to large-scale MHA (LS-MHA) using a single matrix value representing single-head performance (SHP), analogous to single-filter performance in convolutional neural networks (CNNs). The results indicate that each SHP matrix comprises multiple unit clusters such that each label being explicitly recognized by a few heads with negligible noise. This leads to an increased signal-to-noise ratio (SNR) along the transformer blocks, thereby improving classification accuracy. These features give rise to several distinct vision transformer (ViT) architectures that achieve the same accuracy but differ in their LS-MHA structures. As a result, their soft committee yields superior accuracy, an outcome not typically observed in CNNs which rely on hundreds of filters. In addition, a significant reduction in latency is achieved without affecting the accuracy by replacing the initial transformer blocks with convolutional layers. This substitution accelerates early-stage learning, which is then improved by subsequent transformer layers. The extension of this learning mechanism to natural language processing tasks, based on quantitative differences between CNNs and ViT architectures, has the potential to yield new insights in deep learning. The findings are demonstrated using compact convolutional transformer architectures trained on the CIFAR-100 dataset.
- Abstract(参考訳): 近年,SNP(Single-nodal Performance)の定量化により,マルチヘッド・アテンション (MHA) の変圧器ブロック間における自発対称性の出現が実証された。
この結果は,それぞれの頭部がSNP間の協調を通じて,ラベルのサブセットに焦点を絞っていることを示している。
この基礎となる学習メカニズムは、畳み込みニューラルネットワーク(CNN)の単一フィルタ性能に類似した、単一ヘッド性能(SHP)を表す単一の行列値を用いて、大規模MHA(LS-MHA)に一般化される。
その結果、各SHP行列は複数の単位クラスタから構成されており、各ラベルは無視可能な雑音を持つ数個のヘッドによって明示的に認識されることがわかった。
これにより、トランスブロックに沿った信号対雑音比(SNR)が増加し、分類精度が向上する。
これらの特徴は、同じ精度でLS-MHA構造が異なるいくつかの異なる視覚変換器(ViT)アーキテクチャをもたらす。
結果として、彼らのソフト・コミッショナーは、何百ものフィルターに依存するCNNでは通常観察されない、優れた精度が得られる。
さらに、初期変圧器ブロックを畳み込み層に置き換えることで、精度に影響を与えることなく、遅延の大幅な低減を実現する。
この置換は早期学習を加速し、その後のトランスフォーマー層によって改善される。
この学習メカニズムの自然言語処理タスクへの拡張は、CNNとViTアーキテクチャの量的差異に基づいて、ディープラーニングに新たな洞察をもたらす可能性がある。
これらの結果は、CIFAR-100データセットに基づいて訓練されたコンパクトな畳み込みトランスフォーマーアーキテクチャを用いて実証された。
関連論文リスト
- Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi [0.0]
畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する。
視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
本研究は,CNNとViTアーキテクチャが基盤となる学習機構の統一に由来することを示す。
論文 参考訳(メタデータ) (2025-01-22T14:19:48Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Vision Transformers with Hierarchical Attention [61.16912607330001]
本稿では、視覚変換器におけるMHSA(Multi-Head Self-Attention)に関連する計算・空間の複雑さに対処する。
階層型MHSA(Hierarchical MHSA, H-MHSA)を提案する。
我々は階層型アテンションベースのトランスフォーマーネットワーク,すなわちHAT-Netのファミリを構築する。
論文 参考訳(メタデータ) (2021-06-06T17:01:13Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。