論文の概要: Feature Learning in Attention Mechanisms Is More Compact and Stable Than in Convolution
- arxiv url: http://arxiv.org/abs/2410.17628v1
- Date: Wed, 23 Oct 2024 07:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:22.700776
- Title: Feature Learning in Attention Mechanisms Is More Compact and Stable Than in Convolution
- Title(参考訳): 注意機構における特徴学習は、畳み込みよりもコンパクトで安定している
- Authors: Baiyuan Chen,
- Abstract要約: 注意がよりコンパクトで安定した方法でデータを処理することを示す。
トポロジカルデータ解析を用いた実験により,本研究の妥当性を検証した。
視覚変換器(ViTs)とResNetsとの比較により,ViTsの出力分散は高いが,特徴学習はResNetsよりも安定であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Attention and convolution are fundamental techniques in machine learning. While they use different approaches to learn features - attention mechanisms capture both global and local data relathionships, while convolutional layers focus on local patterns - both methods are effective for various tasks. Although the feature learning of both models is well-studied individually, there has not been a direct comparison of their feature learning dynamics. In this paper, we compare their Lipschitz continuity with respect to the Wasserstein distance and covering numbers under similar settings. We demonstrate that attention processes data in a more compact and stable manner. Compactness refers to the lower variance and intrinsic dimensionality of the activation outputs, while stability refers to the changes between inputs and outputs. We validate our findings through experiments using topological data analysis, measuring the 1-, 2-, and infinity-Wasserstein distances between the outputs of each layer from both models. Furthermore, we extend our comparison to Vision Transformers (ViTs) and ResNets, showing that while ViTs have higher output variance, their feature learning is more stable than that of ResNets.
- Abstract(参考訳): 注意と畳み込みは機械学習の基本的な技術である。
グローバルデータとローカルデータの両方をキャプチャするアテンションメカニズムや、ローカルパターンにフォーカスする畳み込みレイヤなど、両方のメソッドはさまざまなタスクに有効です。
両方のモデルの特徴学習は個別によく研究されているが、それらの特徴学習のダイナミクスを直接比較することはできない。
本稿では, ワッサーシュタイン距離に対するリプシッツ連続性と, 同様の条件下での被覆数の比較を行う。
注意がよりコンパクトで安定した方法でデータを処理できることを実証する。
コンパクト性はアクティベーション出力の低分散と本質的な次元性を指し、安定性は入力と出力の間の変化を指す。
トポロジカルデータ解析を用いて,各層間の1-, 2-, infinity-Wasserstein距離を両モデルで測定し,実験により検証した。
さらに、視覚変換器(ViT)とResNetsとの比較により、ViTsは出力分散が大きいが、特徴学習はResNetsよりも安定であることを示す。
関連論文リスト
- Stable Autonomous Flow Matching [5.105561029577617]
データサンプルが物理的に安定な状態を表す文脈では、データポイントはエネルギーランドスケープの局所的なミニマを表すと仮定されることが多い。
本稿では,このようなデータと,フローマッチングと呼ばれる近年の深層生成モデルに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-08T16:01:24Z) - Graph-Aware Contrasting for Multivariate Time-Series Classification [50.84488941336865]
既存のコントラスト学習手法は主に、時間的拡張とコントラスト技術による時間的一貫性を達成することに焦点を当てている。
MTSデータ間の空間的整合性を考慮したグラフ認識コントラストを提案する。
提案手法は,様々なMSS分類タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T02:35:22Z) - Explainable Lifelong Stream Learning Based on "Glocal" Pairwise Fusion [17.11983414681928]
リアルタイムデバイス上での連続学習アプリケーションは、携帯電話、消費者向けロボット、スマートアプライアンスで使用されている。
本研究では,いくつかの重要な特徴を取り入れたExplainable Lifelong Learning(ExLL)モデルを提案する。
ExLLはテストシナリオの大部分において、正確性のためにすべてのアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2023-06-23T09:54:48Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - On the Versatile Uses of Partial Distance Correlation in Deep Learning [47.11577420740119]
本稿では、異なる次元の特徴空間間の相関を評価するために設計された距離相関(および部分変量)と呼ばれる統計学から(広く知られていない)再検討する。
本稿では,大規模モデルへの展開に必要なステップについて述べる。
これは、ある深いモデルw.r.t.を条件付けすること、非絡み合った表現を学習すること、および敵の攻撃に対してより堅牢な多様なモデルを最適化することなど、驚くべき一連のアプリケーションへの扉を開く。
論文 参考訳(メタデータ) (2022-07-20T06:36:11Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Transfer learning of phase transitions in percolation and directed
percolation [2.0342076109301583]
本研究では,非平衡・平衡相転移モデルの研究のために,転送学習に基づくドメイン対向ニューラルネットワーク(DANN)を適用した。
両モデルのDANN学習はモンテカルロシミュレーションに匹敵する信頼性の高い結果をもたらす。
論文 参考訳(メタデータ) (2021-12-31T15:24:09Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。