論文の概要: Vision GNN: An Image is Worth Graph of Nodes
- arxiv url: http://arxiv.org/abs/2206.00272v1
- Date: Wed, 1 Jun 2022 07:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:19:19.816303
- Title: Vision GNN: An Image is Worth Graph of Nodes
- Title(参考訳): Vision GNN:イメージはノードの貴重なグラフ
- Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu
- Abstract要約: 本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
- 参考スコア(独自算出の注目度): 49.3335689216822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network architecture plays a key role in the deep learning-based computer
vision system. The widely-used convolutional neural network and transformer
treat the image as a grid or sequence structure, which is not flexible to
capture irregular and complex objects. In this paper, we propose to represent
the image as a graph structure and introduce a new Vision GNN (ViG)
architecture to extract graph-level feature for visual tasks. We first split
the image to a number of patches which are viewed as nodes, and construct a
graph by connecting the nearest neighbors. Based on the graph representation of
images, we build our ViG model to transform and exchange information among all
the nodes. ViG consists of two basic modules: Grapher module with graph
convolution for aggregating and updating graph information, and FFN module with
two linear layers for node feature transformation. Both isotropic and pyramid
architectures of ViG are built with different model sizes. Extensive
experiments on image recognition and object detection tasks demonstrate the
superiority of our ViG architecture. We hope this pioneering study of GNN on
general visual tasks will provide useful inspiration and experience for future
research. The PyTroch code will be available at
https://github.com/huawei-noah/CV-Backbones and the MindSpore code will be
avaiable at https://gitee.com/mindspore/models.
- Abstract(参考訳): ネットワークアーキテクチャはディープラーニングベースのコンピュータビジョンシステムにおいて重要な役割を果たす。
広く使われている畳み込みニューラルネットワークとトランスフォーマーは、画像が不規則で複雑なオブジェクトをキャプチャする柔軟性のないグリッドまたはシーケンス構造として扱う。
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出する新しいVision GNN(ViG)アーキテクチャを提案する。
まず、画像をノードと見なされる多数のパッチに分割し、最寄りの隣接ノードを接続してグラフを構築する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
ViGはグラフ情報を集約・更新するためのグラフ畳み込み付きグラフモジュールと、ノード特徴変換のための2つの線形層を持つFFNモジュールの2つの基本モジュールで構成されている。
ViGの等方性とピラミッドアーキテクチャはどちらも異なるモデルサイズで構築されている。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を示している。
GNNの一般的な視覚的タスクに関する先駆的な研究が、将来の研究に有用なインスピレーションと経験を提供することを期待している。
PyTrochコードはhttps://github.com/huawei-noah/CV-Backbonesで利用でき、MindSporeコードはhttps://gitee.com/mindspore/modelsで利用できる。
関連論文リスト
- InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - UniG-Encoder: A Universal Feature Encoder for Graph and Hypergraph Node
Classification [6.977634174845066]
グラフおよびハイパーグラフ表現学習のための普遍的特徴エンコーダ(UniG-Encoder)が設計されている。
アーキテクチャは、連結ノードのトポロジ的関係をエッジやハイパーエッジに前方変換することから始まる。
符号化されたノードの埋め込みは、投影行列の変換によって記述された逆変換から導かれる。
論文 参考訳(メタデータ) (2023-08-03T09:32:50Z) - ViG-UNet: Vision Graph Neural Networks for Medical Image Segmentation [7.802846775068384]
本稿では、エンコーダ、デコーダ、ボトルネック、スキップ接続を備えたグラフニューラルネットワークに基づくU字型アーキテクチャを提案する。
ISIC 2016 と ISIC 2017 と Kvasir-SEG のデータセットによる実験結果から,提案したアーキテクチャは,既存の古典的かつ最先端のU字型ネットワークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-08T03:17:00Z) - Graph Neural Networks in Vision-Language Image Understanding: A Survey [6.813036707969848]
2次元画像理解はコンピュータビジョンの複雑な問題である。
それは人間レベルのシーン理解を提供する鍵を握る。
近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなっている。
論文 参考訳(メタデータ) (2023-03-07T09:56:23Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Graph Neural Networks with Learnable Structural and Positional
Representations [83.24058411666483]
任意のグラフの大きな問題は、ノードの標準位置情報の欠如である。
ノードの位置ノード(PE)を導入し、Transformerのように入力層に注入する。
両方のGNNクラスで学習可能なPEを考えると、分子データセットのパフォーマンスは2.87%から64.14%に向上する。
論文 参考訳(メタデータ) (2021-10-15T05:59:15Z) - GraphSVX: Shapley Value Explanations for Graph Neural Networks [81.83769974301995]
グラフニューラルネットワーク(GNN)は、幾何データに基づく様々な学習タスクにおいて大きな性能を発揮する。
本稿では,既存のGNN解説者の多くが満足する統一フレームワークを提案する。
GNN用に特別に設計されたポストホックローカルモデル非依存説明法であるGraphSVXを紹介します。
論文 参考訳(メタデータ) (2021-04-18T10:40:37Z) - Graph Contrastive Learning with Augmentations [109.23158429991298]
グラフデータの教師なし表現を学習するためのグラフコントラスト学習(GraphCL)フレームワークを提案する。
我々のフレームワークは、最先端の手法と比較して、類似またはより良い一般化可能性、転送可能性、堅牢性のグラフ表現を作成できることを示す。
論文 参考訳(メタデータ) (2020-10-22T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。