論文の概要: Low-latency vision transformers via large-scale multi-head attention
- arxiv url: http://arxiv.org/abs/2506.23832v1
- Date: Mon, 30 Jun 2025 13:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.072485
- Title: Low-latency vision transformers via large-scale multi-head attention
- Title(参考訳): 大規模マルチヘッドアテンションによる低遅延ビジョントランス
- Authors: Ronit D. Gross, Tal Halevi, Ella Koresh, Yarden Tzach, Ido Kanter,
- Abstract要約: 学習機構は、シングルヘッド性能を表す単一の行列値を用いて、大規模MHA(LS-MHA)に一般化される。
いくつかの異なる視覚変換器(ViT)アーキテクチャは、同じ精度でLS-MHA構造が異なる。
この学習メカニズムを自然言語処理タスクに拡張することは、ディープラーニングに新たな洞察をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of spontaneous symmetry breaking among a few heads of multi-head attention (MHA) across transformer blocks in classification tasks was recently demonstrated through the quantification of single-nodal performance (SNP). This finding indicates that each head focuses its attention on a subset of labels through cooperation among its SNPs. This underlying learning mechanism is generalized to large-scale MHA (LS-MHA) using a single matrix value representing single-head performance (SHP), analogous to single-filter performance in convolutional neural networks (CNNs). The results indicate that each SHP matrix comprises multiple unit clusters such that each label being explicitly recognized by a few heads with negligible noise. This leads to an increased signal-to-noise ratio (SNR) along the transformer blocks, thereby improving classification accuracy. These features give rise to several distinct vision transformer (ViT) architectures that achieve the same accuracy but differ in their LS-MHA structures. As a result, their soft committee yields superior accuracy, an outcome not typically observed in CNNs which rely on hundreds of filters. In addition, a significant reduction in latency is achieved without affecting the accuracy by replacing the initial transformer blocks with convolutional layers. This substitution accelerates early-stage learning, which is then improved by subsequent transformer layers. The extension of this learning mechanism to natural language processing tasks, based on quantitative differences between CNNs and ViT architectures, has the potential to yield new insights in deep learning. The findings are demonstrated using compact convolutional transformer architectures trained on the CIFAR-100 dataset.
- Abstract(参考訳): 近年,SNP(Single-nodal Performance)の定量化により,マルチヘッド・アテンション (MHA) の変圧器ブロック間における自発対称性の出現が実証された。
この結果は,それぞれの頭部がSNP間の協調を通じて,ラベルのサブセットに焦点を絞っていることを示している。
この基礎となる学習メカニズムは、畳み込みニューラルネットワーク(CNN)の単一フィルタ性能に類似した、単一ヘッド性能(SHP)を表す単一の行列値を用いて、大規模MHA(LS-MHA)に一般化される。
その結果、各SHP行列は複数の単位クラスタから構成されており、各ラベルは無視可能な雑音を持つ数個のヘッドによって明示的に認識されることがわかった。
これにより、トランスブロックに沿った信号対雑音比(SNR)が増加し、分類精度が向上する。
これらの特徴は、同じ精度でLS-MHA構造が異なるいくつかの異なる視覚変換器(ViT)アーキテクチャをもたらす。
結果として、彼らのソフト・コミッショナーは、何百ものフィルターに依存するCNNでは通常観察されない、優れた精度が得られる。
さらに、初期変圧器ブロックを畳み込み層に置き換えることで、精度に影響を与えることなく、遅延の大幅な低減を実現する。
この置換は早期学習を加速し、その後のトランスフォーマー層によって改善される。
この学習メカニズムの自然言語処理タスクへの拡張は、CNNとViTアーキテクチャの量的差異に基づいて、ディープラーニングに新たな洞察をもたらす可能性がある。
これらの結果は、CIFAR-100データセットに基づいて訓練されたコンパクトな畳み込みトランスフォーマーアーキテクチャを用いて実証された。
関連論文リスト
- Small transformer architectures for task switching [2.7195102129095003]
注意に基づくアーキテクチャが従来のアプローチより優れていると考えるのは簡単ではない。
標準変圧器は基本的タスク切替参照モデルでは解けないことを示す。
本研究では, トランス, 長期記憶再帰ネットワーク (LSTM) , 平板多層パーセプトロン (MLP) が類似しているが, 予測精度は緩やかであることを示す。
論文 参考訳(メタデータ) (2025-08-06T14:01:05Z) - Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi [0.0]
畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する。
視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
本研究は,CNNとViTアーキテクチャが基盤となる学習機構の統一に由来することを示す。
論文 参考訳(メタデータ) (2025-01-22T14:19:48Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Vision Transformers with Hierarchical Attention [61.16912607330001]
本稿では、視覚変換器におけるMHSA(Multi-Head Self-Attention)に関連する計算・空間の複雑さに対処する。
階層型MHSA(Hierarchical MHSA, H-MHSA)を提案する。
我々は階層型アテンションベースのトランスフォーマーネットワーク,すなわちHAT-Netのファミリを構築する。
論文 参考訳(メタデータ) (2021-06-06T17:01:13Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Self-grouping Convolutional Neural Networks [30.732298624941738]
本稿では,SG-CNNと呼ばれる自己グループ型畳み込みニューラルネットワークの設計手法を提案する。
各フィルタについて、まず入力チャネルの重要度を評価し、重要度ベクトルを同定する。
得られたデータに依存したセントロイドを用いて、重要でない接続を創り出し、プルーニングの精度損失を暗黙的に最小化する。
論文 参考訳(メタデータ) (2020-09-29T06:24:32Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。