論文の概要: AttentionViG: Cross-Attention-Based Dynamic Neighbor Aggregation in Vision GNNs
- arxiv url: http://arxiv.org/abs/2509.25570v1
- Date: Mon, 29 Sep 2025 22:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.35647
- Title: AttentionViG: Cross-Attention-Based Dynamic Neighbor Aggregation in Vision GNNs
- Title(参考訳): AttentionViG:Vision GNNにおけるクロスアテンションに基づく動的隣り合うアグリゲーション
- Authors: Hakan Emre Gedik, Andrew Martin, Mustafa Munir, Oguzhan Baser, Radu Marculescu, Sandeep P. Chinchali, Alan C. Bovik,
- Abstract要約: Vision Graph Neural Networks (ViGs)は、画像認識タスクにおいて、CNNやVision Transformersに対して有望なパフォーマンスを示す。
ViGフレームワークの重要な部分は、ノード近傍の機能集約法である。
本稿では,クエリプロジェクションをノードから,キープロジェクションを隣りのノードから,クロスアテンションに基づくアグリゲーション手法を提案する。
- 参考スコア(独自算出の注目度): 40.43076513538705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Graph Neural Networks (ViGs) have demonstrated promising performance in image recognition tasks against Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). An essential part of the ViG framework is the node-neighbor feature aggregation method. Although various graph convolution methods, such as Max-Relative, EdgeConv, GIN, and GraphSAGE, have been explored, a versatile aggregation method that effectively captures complex node-neighbor relationships without requiring architecture-specific refinements is needed. To address this gap, we propose a cross-attention-based aggregation method in which the query projections come from the node, while the key projections come from its neighbors. Additionally, we introduce a novel architecture called AttentionViG that uses the proposed cross-attention aggregation scheme to conduct non-local message passing. We evaluated the image recognition performance of AttentionViG on the ImageNet-1K benchmark, where it achieved SOTA performance. Additionally, we assessed its transferability to downstream tasks, including object detection and instance segmentation on MS COCO 2017, as well as semantic segmentation on ADE20K. Our results demonstrate that the proposed method not only achieves strong performance, but also maintains efficiency, delivering competitive accuracy with comparable FLOPs to prior vision GNN architectures.
- Abstract(参考訳): ビジョングラフニューラルネットワーク(ViG)は、画像認識タスクにおいて、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)に対して有望な性能を示す。
ViGフレームワークの重要な部分は、ノード近傍の機能集約法である。
Max-Relative、EdgeConv、GIN、GraphSAGEなどのグラフ畳み込み手法が検討されているが、アーキテクチャ固有の改良を必要とせず、複雑なノード-隣の関係を効果的に捉える汎用的な集約手法が必要である。
このギャップに対処するため,クエリ・プロジェクションがノードから,キー・プロジェクションが隣人から,それぞれがクエリ・プロジェクションを出力するクロスアテンション・ベースのアグリゲーション手法を提案する。
さらに,非局所的なメッセージパッシングを行うために,クロスアテンションアグリゲーション方式を用いたAttentionViGという新しいアーキテクチャを導入する。
我々は、ImageNet-1Kベンチマークを用いて、AttentionViGの画像認識性能を評価し、SOTA性能を達成した。
さらに,MS COCO 2017のオブジェクト検出やインスタンス分割,ADE20Kのセマンティックセマンティックセマンティックセマンティクスなど,下流タスクへの転送可能性を評価した。
その結果,提案手法は高い性能を達成できるだけでなく,効率も向上し,先行ビジョンのGNNアーキテクチャに匹敵するFLOPと競合する精度を実現することができた。
関連論文リスト
- Vision Graph Prompting via Semantic Low-Rank Decomposition [10.223578525761617]
Vision GNN (ViG) は、画像をグラフ構造として表現することで、優れた性能を示す。
下流タスクにViGを効率的に適応させるためには、視覚的プロンプトのようなパラメータ効率の良い微調整技術がますます不可欠になっている。
視覚グラフ構造に適した新しいフレームワークであるビジョングラフプロンプティング(VGP)を提案する。
論文 参考訳(メタデータ) (2025-05-07T04:29:29Z) - ClusterViG: Efficient Globally Aware Vision GNNs via Image Partitioning [7.325055402812975]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)がコンピュータビジョン(CV)の分野を支配している。
このボトルネックに対処する最近の研究は、非構造化グラフを構築するためのGNNの柔軟性に制約を課している。
そこで本稿では, 動的効率性グラフ畳み込み (DEGC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-18T02:59:10Z) - UnSeGArmaNet: Unsupervised Image Segmentation using Graph Neural Networks with Convolutional ARMA Filters [10.940349832919699]
事前学習したViTを用いた教師なしセグメンテーションフレームワークを提案する。
画像内に固有のグラフ構造を利用することにより,セグメント化における顕著な性能を実現する。
提案手法は,ベンチマーク画像セグメンテーションデータセット上での最先端性能(教師付き手法に匹敵する)を提供する。
論文 参考訳(メタデータ) (2024-10-08T15:10:09Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - BOURNE: Bootstrapped Self-supervised Learning Framework for Unified
Graph Anomaly Detection [50.26074811655596]
自己指導型自己学習(BOURNE)に基づく新しい統合グラフ異常検出フレームワークを提案する。
ノードとエッジ間のコンテキスト埋め込みを交換することで、ノードとエッジの異常を相互に検出できる。
BOURNEは、負のサンプリングを必要としないため、大きなグラフを扱う際の効率を高めることができる。
論文 参考訳(メタデータ) (2023-07-28T00:44:57Z) - A Variational Edge Partition Model for Supervised Graph Representation
Learning [51.30365677476971]
本稿では,重なり合うノード群間の相互作用を集約することで,観測されたエッジがどのように生成されるかをモデル化するグラフ生成プロセスを提案する。
それぞれのエッジを複数のコミュニティ固有の重み付きエッジの和に分割し、コミュニティ固有のGNNを定義する。
エッジを異なるコミュニティに分割するGNNベースの推論ネットワーク,これらのコミュニティ固有のGNN,およびコミュニティ固有のGNNを最終分類タスクに組み合わせたGNNベースの予測器を共同で学習するために,変分推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。