論文の概要: Vision GNN: An Image is Worth Graph of Nodes
- arxiv url: http://arxiv.org/abs/2206.00272v1
- Date: Wed, 1 Jun 2022 07:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:19:19.816303
- Title: Vision GNN: An Image is Worth Graph of Nodes
- Title(参考訳): Vision GNN:イメージはノードの貴重なグラフ
- Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu
- Abstract要約: 本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
- 参考スコア(独自算出の注目度): 49.3335689216822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network architecture plays a key role in the deep learning-based computer
vision system. The widely-used convolutional neural network and transformer
treat the image as a grid or sequence structure, which is not flexible to
capture irregular and complex objects. In this paper, we propose to represent
the image as a graph structure and introduce a new Vision GNN (ViG)
architecture to extract graph-level feature for visual tasks. We first split
the image to a number of patches which are viewed as nodes, and construct a
graph by connecting the nearest neighbors. Based on the graph representation of
images, we build our ViG model to transform and exchange information among all
the nodes. ViG consists of two basic modules: Grapher module with graph
convolution for aggregating and updating graph information, and FFN module with
two linear layers for node feature transformation. Both isotropic and pyramid
architectures of ViG are built with different model sizes. Extensive
experiments on image recognition and object detection tasks demonstrate the
superiority of our ViG architecture. We hope this pioneering study of GNN on
general visual tasks will provide useful inspiration and experience for future
research. The PyTroch code will be available at
https://github.com/huawei-noah/CV-Backbones and the MindSpore code will be
avaiable at https://gitee.com/mindspore/models.
- Abstract(参考訳): ネットワークアーキテクチャはディープラーニングベースのコンピュータビジョンシステムにおいて重要な役割を果たす。
広く使われている畳み込みニューラルネットワークとトランスフォーマーは、画像が不規則で複雑なオブジェクトをキャプチャする柔軟性のないグリッドまたはシーケンス構造として扱う。
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出する新しいVision GNN(ViG)アーキテクチャを提案する。
まず、画像をノードと見なされる多数のパッチに分割し、最寄りの隣接ノードを接続してグラフを構築する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
ViGはグラフ情報を集約・更新するためのグラフ畳み込み付きグラフモジュールと、ノード特徴変換のための2つの線形層を持つFFNモジュールの2つの基本モジュールで構成されている。
ViGの等方性とピラミッドアーキテクチャはどちらも異なるモデルサイズで構築されている。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を示している。
GNNの一般的な視覚的タスクに関する先駆的な研究が、将来の研究に有用なインスピレーションと経験を提供することを期待している。
PyTrochコードはhttps://github.com/huawei-noah/CV-Backbonesで利用でき、MindSporeコードはhttps://gitee.com/mindspore/modelsで利用できる。
関連論文リスト
- UniG-Encoder: A Universal Feature Encoder for Graph and Hypergraph Node
Classification [6.977634174845066]
グラフおよびハイパーグラフ表現学習のための普遍的特徴エンコーダ(UniG-Encoder)が設計されている。
アーキテクチャは、連結ノードのトポロジ的関係をエッジやハイパーエッジに前方変換することから始まる。
符号化されたノードの埋め込みは、投影行列の変換によって記述された逆変換から導かれる。
論文 参考訳(メタデータ) (2023-08-03T09:32:50Z) - Pixel-wise Graph Attention Networks for Person Re-identification [18.662170017063286]
グラフ畳み込みネットワーク(GCN)は不規則データを扱うために広く使われている。
構造化データ(画像など)にGCNを適用する方法については、まだ深く研究されていない。
本稿では,画像特徴抽出におけるグラフアテンションネットワーク(GAT)の適用について検討する。
論文 参考訳(メタデータ) (2023-07-18T12:12:42Z) - ViG-UNet: Vision Graph Neural Networks for Medical Image Segmentation [7.802846775068384]
本稿では、エンコーダ、デコーダ、ボトルネック、スキップ接続を備えたグラフニューラルネットワークに基づくU字型アーキテクチャを提案する。
ISIC 2016 と ISIC 2017 と Kvasir-SEG のデータセットによる実験結果から,提案したアーキテクチャは,既存の古典的かつ最先端のU字型ネットワークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-08T03:17:00Z) - Graph Neural Networks in Vision-Language Image Understanding: A Survey [5.602614443994271]
2次元画像理解はコンピュータビジョンの複雑な問題である。
人間のレベルのシーンを理解するための鍵を握る。
GNNは多くの2D画像理解パイプラインの標準コンポーネントとなっている。
論文 参考訳(メタデータ) (2023-03-07T09:56:23Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Graph Neural Networks with Learnable Structural and Positional
Representations [83.24058411666483]
任意のグラフの大きな問題は、ノードの標準位置情報の欠如である。
ノードの位置ノード(PE)を導入し、Transformerのように入力層に注入する。
両方のGNNクラスで学習可能なPEを考えると、分子データセットのパフォーマンスは2.87%から64.14%に向上する。
論文 参考訳(メタデータ) (2021-10-15T05:59:15Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - GraphSVX: Shapley Value Explanations for Graph Neural Networks [81.83769974301995]
グラフニューラルネットワーク(GNN)は、幾何データに基づく様々な学習タスクにおいて大きな性能を発揮する。
本稿では,既存のGNN解説者の多くが満足する統一フレームワークを提案する。
GNN用に特別に設計されたポストホックローカルモデル非依存説明法であるGraphSVXを紹介します。
論文 参考訳(メタデータ) (2021-04-18T10:40:37Z) - Graph Contrastive Learning with Augmentations [109.23158429991298]
グラフデータの教師なし表現を学習するためのグラフコントラスト学習(GraphCL)フレームワークを提案する。
我々のフレームワークは、最先端の手法と比較して、類似またはより良い一般化可能性、転送可能性、堅牢性のグラフ表現を作成できることを示す。
論文 参考訳(メタデータ) (2020-10-22T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。