Fugu-MT 論文翻訳(概要): Feature Learning in Attention Mechanisms Is More Compact and Stable Than in Convolution

論文の概要: Feature Learning in Attention Mechanisms Is More Compact and Stable Than in Convolution

arxiv url: http://arxiv.org/abs/2410.17628v1
Date: Wed, 23 Oct 2024 07:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.362097
Title: Feature Learning in Attention Mechanisms Is More Compact and Stable Than in Convolution
Title（参考訳）: 注意機構における特徴学習は、畳み込みよりもコンパクトで安定している
Authors: Baiyuan Chen,
Abstract要約: 注意がよりコンパクトで安定した方法でデータを処理することを示す。トポロジカルデータ解析を用いた実験により,本研究の妥当性を検証した。視覚変換器(ViTs)とResNetsとの比較により,ViTsの出力分散は高いが,特徴学習はResNetsよりも安定であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention and convolution are fundamental techniques in machine learning. While they use different approaches to learn features - attention mechanisms capture both global and local data relathionships, while convolutional layers focus on local patterns - both methods are effective for various tasks. Although the feature learning of both models is well-studied individually, there has not been a direct comparison of their feature learning dynamics. In this paper, we compare their Lipschitz continuity with respect to the Wasserstein distance and covering numbers under similar settings. We demonstrate that attention processes data in a more compact and stable manner. Compactness refers to the lower variance and intrinsic dimensionality of the activation outputs, while stability refers to the changes between inputs and outputs. We validate our findings through experiments using topological data analysis, measuring the 1-, 2-, and infinity-Wasserstein distances between the outputs of each layer from both models. Furthermore, we extend our comparison to Vision Transformers (ViTs) and ResNets, showing that while ViTs have higher output variance, their feature learning is more stable than that of ResNets.
Abstract（参考訳）: 注意と畳み込みは機械学習の基本的な技術である。グローバルデータとローカルデータの両方をキャプチャするアテンションメカニズムや、ローカルパターンにフォーカスする畳み込みレイヤなど、両方のメソッドはさまざまなタスクに有効です。両方のモデルの特徴学習は個別によく研究されているが、それらの特徴学習のダイナミクスを直接比較することはできない。本稿では, ワッサーシュタイン距離に対するリプシッツ連続性と, 同様の条件下での被覆数の比較を行う。注意がよりコンパクトで安定した方法でデータを処理できることを実証する。コンパクト性はアクティベーション出力の低分散と本質的な次元性を指し、安定性は入力と出力の間の変化を指す。トポロジカルデータ解析を用いて,各層間の1-, 2-, infinity-Wasserstein距離を両モデルで測定し,実験により検証した。さらに、視覚変換器(ViT)とResNetsとの比較により、ViTsは出力分散が大きいが、特徴学習はResNetsよりも安定であることを示す。

関連論文リスト

Interpretable Credit Default Prediction with Ensemble Learning and SHAP [3.948008559977866]
本研究では、信用デフォルト予測の問題に焦点をあて、機械学習に基づくモデリングフレームワークを構築し、様々な主流分類アルゴリズムの比較実験を行う。その結果、アンサンブル学習法は、特に特徴とデータ不均衡問題の間の複雑な非線形関係を扱う際に、予測性能に明らかな利点があることが示唆された。外部クレジットスコア変数はモデル決定において主要な役割を担い、モデルの解釈可能性と実用的な応用価値を改善するのに役立ちます。
論文参考訳（メタデータ） (2025-05-27T07:23:22Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。 GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文参考訳（メタデータ） (2025-01-23T16:58:18Z)
On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models [0.16874375111244325]
大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
論文参考訳（メタデータ） (2024-12-13T20:04:25Z)
Assessing Robustness of Machine Learning Models using Covariate Perturbations [0.6749750044497732]
本稿では,機械学習モデルの堅牢性を評価するための包括的フレームワークを提案する。本研究では、ロバスト性の評価とモデル予測への影響を検討するために、様々な摂動戦略を検討する。モデル間のロバスト性の比較、モデルの不安定性同定、モデルのロバスト性向上におけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-08-02T14:41:36Z)
Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。 Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文参考訳（メタデータ） (2024-07-05T16:14:53Z)
Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文参考訳（メタデータ） (2024-05-24T17:19:57Z)
On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文参考訳（メタデータ） (2023-04-19T11:07:43Z)
Provable Robust Saliency-based Explanations [16.217374556142484]
R2ETは, モデル精度を維持しつつ, ステルス攻撃下でのロバスト性が高いことを示す。ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
論文参考訳（メタデータ） (2022-12-28T22:05:32Z)
Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文参考訳（メタデータ） (2022-11-21T19:55:35Z)
Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward Trustworthy Estimation of Theory-Driven Models [88.63781315038824]
本稿では,ニューラルネットワークのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-24T10:42:26Z)
"Understanding Robustness Lottery": A Geometric Visual Comparative Analysis of Neural Network Pruning Approaches [29.048660060344574]
この研究は、異なるプルーニング手法がネットワークの内部的特徴表現とそれに伴うモデルパフォーマンスへの影響をどのように変化させるかを明らかにすることを目的としている。モデル性能と特徴表現に対するプルーニングの影響を比較・強調するために,特徴表現の視覚幾何学的解析を導入する。提案ツールは,プルーニング手法の詳細な比較環境と,一般的なデータ破損に対するモデル応答の包括的理解を提供する。
論文参考訳（メタデータ） (2022-06-16T04:44:13Z)
Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文参考訳（メタデータ） (2021-11-25T05:51:03Z)
Enhancing Model Robustness and Fairness with Causality: A Regularization Approach [15.981724441808147]
最近の研究は、機械学習モデルにおける急激な相関と意図しないバイアスのリスクを懸念している。モデルトレーニング中に因果知識を統合するためのシンプルで直感的な正規化手法を提案する。因果的特徴に依存し、因果的でない特徴に依存しない予測モデルを構築します。
論文参考訳（メタデータ） (2021-10-03T02:49:33Z)
How to compare adversarial robustness of classifiers from a global perspective [0.0]
敵対的攻撃は、機械学習モデルの信頼性と信頼性を損なう。特定の脅威モデルのポイントワイド測度は、現在、分類器の堅牢性を比較するための最も一般的なツールである。本研究では,最近提案されたロバストネス曲線を用いて,ポイントワイド測度が重要なグローバルな特性を捉えることができないことを示す。
論文参考訳（メタデータ） (2020-04-22T22:07:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。