論文の概要: Revisiting Transformers with Insights from Image Filtering
- arxiv url: http://arxiv.org/abs/2506.10371v1
- Date: Thu, 12 Jun 2025 05:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.592202
- Title: Revisiting Transformers with Insights from Image Filtering
- Title(参考訳): 画像フィルタリングによる変換器の再検討
- Authors: Laziz U. Abdullaev, Maksim Tkachenko, Tan M. Nguyen,
- Abstract要約: 自己注意(Self-attention)は、Transformerベースの最先端のディープラーニングアーキテクチャの基礎である。
我々は、自己注意とそのコンポーネントを説明するための統合画像処理フレームワークを開発する。
画像処理にインスパイアされた修正は、言語や視覚タスク全体にわたるデータ汚染や敵対に対して顕著に精度と堅牢性を向上し、長いシーケンス理解を向上する可能性があることを実証的に観察する。
- 参考スコア(独自算出の注目度): 3.042104695845305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The self-attention mechanism, a cornerstone of Transformer-based state-of-the-art deep learning architectures, is largely heuristic-driven and fundamentally challenging to interpret. Establishing a robust theoretical foundation to explain its remarkable success and limitations has therefore become an increasingly prominent focus in recent research. Some notable directions have explored understanding self-attention through the lens of image denoising and nonparametric regression. While promising, existing frameworks still lack a deeper mechanistic interpretation of various architectural components that enhance self-attention, both in its original formulation and subsequent variants. In this work, we aim to advance this understanding by developing a unifying image processing framework, capable of explaining not only the self-attention computation itself but also the role of components such as positional encoding and residual connections, including numerous later variants. We also pinpoint potential distinctions between the two concepts building upon our framework, and make effort to close this gap. We introduce two independent architectural modifications within transformers. While our primary objective is interpretability, we empirically observe that image processing-inspired modifications can also lead to notably improved accuracy and robustness against data contamination and adversaries across language and vision tasks as well as better long sequence understanding.
- Abstract(参考訳): Transformerをベースとした最先端のディープラーニングアーキテクチャの基盤である自己認識メカニズムは、主にヒューリスティックで、解釈が根本的に難しい。
そのため、その顕著な成功と限界を説明するための堅牢な理論基盤を確立することは、近年の研究においてますます顕著な焦点となっている。
いくつかの顕著な方向は、イメージ認知と非パラメトリック回帰のレンズを通して自己注意を理解することを検討した。
有望ではあるが、既存のフレームワークには、オリジナルの定式化とその後の変種の両方において、自己注意を高める様々なアーキテクチャコンポーネントの深い機械的解釈がない。
本研究は、自己注意計算自体だけでなく、位置エンコーディングや残差接続などのコンポーネントの役割も説明できる統合画像処理フレームワークを開発することにより、この理解を深めることを目指している。
また、フレームワーク上に構築されている2つの概念の潜在的な違いを指摘し、このギャップを埋めようと努力しています。
トランスに2つの独立したアーキテクチャ変更を導入する。
我々の主な目的は解釈可能性であるが、画像処理にインスパイアされた修正は、言語や視覚タスク全体にわたるデータ汚染や敵に対する顕著な精度と堅牢性を向上し、長いシーケンス理解を向上させる可能性があることを実証的に観察する。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Reconstruction-guided attention improves the robustness and shape
processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文 参考訳(メタデータ) (2022-09-27T18:32:22Z) - On the interplay of adversarial robustness and architecture components:
patches, convolution and attention [65.20660287833537]
本研究は,学習した特徴の解釈可能性と,未知の脅威モデルに対する頑健性に及ぼす対人訓練の効果について検討する。
ResNetからConvNeXtへのアブレーションにより、キーとなるアーキテクチャ上の変更により、約10%高い$ell_infty$-robustnessが実現した。
論文 参考訳(メタデータ) (2022-09-14T22:02:32Z) - Robustness and invariance properties of image classifiers [8.970032486260695]
ディープニューラルネットワークは多くの画像分類タスクで印象的な結果を得た。
ディープネットワークは、多種多様なセマンティック保存画像修正に対して堅牢ではない。
画像分類器の小さなデータ分散シフトに対する堅牢性の低さは、その信頼性に関する深刻な懸念を引き起こす。
論文 参考訳(メタデータ) (2022-08-30T11:00:59Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Perception Over Time: Temporal Dynamics for Robust Image Understanding [5.584060970507506]
ディープラーニングは、狭く特定の視覚タスクにおいて、人間レベルのパフォーマンスを上回る。
人間の視覚知覚は入力刺激の変化に対して、桁違いに頑丈である。
静的画像理解に時間力学を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T21:11:59Z) - IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision
Transformers [81.31885548824926]
自己注意型モデルであるTransformerは近年,コンピュータビジョン分野における主要なバックボーンになりつつある。
解釈可能性を考慮した冗長度低減フレームワーク(IA-RED$2$)を提案する。
画像タスクとビデオタスクの両方で広範囲に実験を行い、最大1.4倍のスピードアップを実現しました。
論文 参考訳(メタデータ) (2021-06-23T18:29:23Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。