論文の概要: Attention Via Convolutional Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2511.14137v1
- Date: Tue, 18 Nov 2025 04:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.94182
- Title: Attention Via Convolutional Nearest Neighbors
- Title(参考訳): 近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
- Authors: Mingi Kang, Jeová Farias Sales Rocha Neto,
- Abstract要約: 我々は、畳み込みと自己注意は、単一のk-ネアレスト近傍アグリゲーションフレームワークで統一できると主張している。
このコネクションを形式化する統一フレームワークであるConvNN(Convolutional Nearest Neighbors)を紹介します。
CIFAR-10とCIFAR-100の分類タスクにおけるフレームワークの一貫性を検証する。
- 参考スコア(独自算出の注目度): 0.5729426778193399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The shift from Convolutional Neural Networks to Transformers has reshaped computer vision, yet these two architectural families are typically viewed as fundamentally distinct. We argue that convolution and self-attention, despite their apparent differences, can be unified within a single k-nearest neighbor aggregation framework. The critical insight is that both operations are special cases of neighbor selection and aggregation; convolution selects neighbors by spatial proximity, while attention selects by feature similarity, revealing they exist on a continuous spectrum. We introduce Convolutional Nearest Neighbors (ConvNN), a unified framework that formalizes this connection. Crucially, ConvNN serves as a drop-in replacement for convolutional and attention layers, enabling systematic exploration of the intermediate spectrum between these two extremes. We validate the framework's coherence on CIFAR-10 and CIFAR-100 classification tasks across two complementary architectures: (1) Hybrid branching in VGG improves accuracy on both CIFAR datasets by combining spatial-proximity and feature-similarity selection; and (2) ConvNN in ViT outperforms standard attention and other attention variants on both datasets. Extensive ablations on $k$ values and architectural variants reveal that interpolating along this spectrum provides regularization benefits by balancing local and global receptive fields. Our work provides a unifying framework that dissolves the apparent distinction between convolution and attention, with implications for designing more principled and interpretable vision architectures.
- Abstract(参考訳): 畳み込みニューラルネットワークからトランスフォーマーへのシフトはコンピュータビジョンに変化をもたらしたが、これら2つのアーキテクチャファミリは基本的には別物と見なされる。
畳み込みと自己注意は、明らかな相違にもかかわらず、1つのk-アネレスの隣り合う集約フレームワークで統一することができると論じる。
コンボリューションは空間的近接で隣人を選別し、注意は特徴的類似性によって選別し、連続スペクトル上に存在することを示した。
このコネクションを形式化する統一フレームワークであるConvNN(Convolutional Nearest Neighbors)を紹介します。
重要なことに、ConvNNは畳み込み層と注意層を代替し、これら2つの極端の間の中間スペクトルの体系的な探索を可能にしている。
我々は,CIFAR-10とCIFAR-100の分類タスクにおけるフレームワークのコヒーレンスを,(1)VGGにおけるハイブリッド分岐は,空間確率と特徴相似選択を組み合わせたCIFARデータセットの精度の向上,(2)VTにおけるConvNNは,両データセットにおける標準注意やその他の注意変動よりも優れていること,の2つの相補的アーキテクチャで検証する。
k$の値とアーキテクチャ上の不変量に対する大規模な改善は、このスペクトルに沿って補間することで、局所的および大域的受容的フィールドのバランスをとることで正規化の利点が得られることを示している。
私たちの研究は、畳み込みと注意の明確な区別を解消する統一的なフレームワークを提供し、より原理的で解釈可能な視覚アーキテクチャを設計するための意味を持つ。
関連論文リスト
- Hierarchical Graph Feature Enhancement with Adaptive Frequency Modulation for Visual Recognition [6.580655899524989]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクにおいて強力な性能を示している。
構造認識と特徴表現を両立させるため,CNNにグラフベース推論を統合する新しいフレームワークを提案する。
提案したHGFEモジュールは軽量でエンドツーエンドのトレーニングが可能で、標準のCNNバックボーンネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-15T14:19:50Z) - Cross-domain Hyperspectral Image Classification based on Bi-directional Domain Adaptation [9.274122822335586]
クロスドメインハイパースペクトル画像(HSI)分類のための双方向ドメイン適応(BiDA)フレームワークを提案する。
BiDAは、独立適応空間におけるドメイン不変特徴とドメイン固有情報の両方を抽出することに焦点を当てている。
時空・時空・衛星データを用いた実験結果から,提案したBiDAは,最先端の領域適応手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-03T03:22:28Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。