論文の概要: Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi
- arxiv url: http://arxiv.org/abs/2501.12900v1
- Date: Wed, 22 Jan 2025 14:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:28:57.932397
- Title: Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi
- Title(参考訳): 統合CNNとトランスフォーマーによる学習機構の解明
- Authors: Ella Koresh, Ronit D. Gross, Yuval Meir, Yarden Tzach, Tal Halevi, Ido Kanter,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する。
視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
本研究は,CNNとViTアーキテクチャが基盤となる学習機構の統一に由来することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Convolutional neural networks (CNNs) evaluate short-range correlations in input images which progress along the layers, whereas vision transformer (ViT) architectures evaluate long-range correlations, using repeated transformer encoders composed of fully connected layers. Both are designed to solve complex classification tasks but from different perspectives. This study demonstrates that CNNs and ViT architectures stem from a unified underlying learning mechanism, which quantitatively measures the single-nodal performance (SNP) of each node in feedforward (FF) and multi-head attention (MHA) subblocks. Each node identifies small clusters of possible output labels, with additional noise represented as labels outside these clusters. These features are progressively sharpened along the transformer encoders, enhancing the signal-to-noise ratio. This unified underlying learning mechanism leads to two main findings. First, it enables an efficient applied nodal diagonal connection (ANDC) pruning technique without affecting the accuracy. Second, based on the SNP, spontaneous symmetry breaking occurs among the MHA heads, such that each head focuses its attention on a subset of labels through cooperation among its SNPs. Consequently, each head becomes an expert in recognizing its designated labels, representing a quantitative MHA modus vivendi mechanism. These results are based on a compact convolutional transformer architecture trained on the CIFAR-100 and Flowers-102 datasets and call for their extension to other architectures and applications, such as natural language processing.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、層に沿って進行する入力画像の短距離相関を評価する一方、視覚変換器(ViT)アーキテクチャは、完全に接続された層からなる繰り返し変換器エンコーダを用いて、長距離相関を評価する。
どちらも、異なる観点から、複雑な分類タスクを解決するように設計されている。
本研究では, フィードフォワード (FF) およびマルチヘッドアテンション (MHA) サブブロックにおいて, 各ノードの単一ノイズ性能 (SNP) を定量的に測定する統合学習機構からCNNとViTアーキテクチャが導かれることを示す。
各ノードは、可能な出力ラベルの小さなクラスタを特定し、これらのクラスタの外のラベルとして追加のノイズを表現します。
これらの特徴は変圧器エンコーダに沿って徐々にシャープ化され、信号対雑音比が向上する。
この統合された学習メカニズムは、2つの主要な発見につながる。
第一に, 高精度に影響を及ぼすことなく, 効率的な能動対角接続 (ANDC) 破砕技術を実現する。
第2に、SNPに基づいて、各ヘッドがSNP間の協調を通してラベルのサブセットに注意を集中するように、MHAヘッド間で自発的対称性の破れが発生する。
その結果、各頭部は、その指定されたラベルを認識する専門家となり、定量的なMHAモダス・ヴィベンディ機構を表す。
これらの結果は、CIFAR-100とFlowers-102データセットに基づいてトレーニングされたコンパクトな畳み込みトランスフォーマーアーキテクチャに基づいており、自然言語処理などの他のアーキテクチャやアプリケーションへの拡張を求めている。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection [41.38587746899477]
合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
論文 参考訳(メタデータ) (2023-09-21T12:28:23Z) - Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the
Best of Both Students [18.860732413631887]
本稿では、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)に基づく2人の学生からなる、新しい半教師付き学習(SSL)手法を提案する。
提案手法は,非ラベルデータに対する擬似ラベルによる予測と異種特徴空間の多レベル整合正則化を,下位に組み込む。
我々はCityscapesとPascal VOC 2012データセットのTCCフレームワークを検証する。
論文 参考訳(メタデータ) (2022-09-06T02:11:08Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Self-grouping Convolutional Neural Networks [30.732298624941738]
本稿では,SG-CNNと呼ばれる自己グループ型畳み込みニューラルネットワークの設計手法を提案する。
各フィルタについて、まず入力チャネルの重要度を評価し、重要度ベクトルを同定する。
得られたデータに依存したセントロイドを用いて、重要でない接続を創り出し、プルーニングの精度損失を暗黙的に最小化する。
論文 参考訳(メタデータ) (2020-09-29T06:24:32Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。