論文の概要: Vision GNN: An Image is Worth Graph of Nodes
- arxiv url: http://arxiv.org/abs/2206.00272v1
- Date: Wed, 1 Jun 2022 07:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:19:19.816303
- Title: Vision GNN: An Image is Worth Graph of Nodes
- Title(参考訳): Vision GNN:イメージはノードの貴重なグラフ
- Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu
- Abstract要約: 本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
- 参考スコア(独自算出の注目度): 49.3335689216822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network architecture plays a key role in the deep learning-based computer
vision system. The widely-used convolutional neural network and transformer
treat the image as a grid or sequence structure, which is not flexible to
capture irregular and complex objects. In this paper, we propose to represent
the image as a graph structure and introduce a new Vision GNN (ViG)
architecture to extract graph-level feature for visual tasks. We first split
the image to a number of patches which are viewed as nodes, and construct a
graph by connecting the nearest neighbors. Based on the graph representation of
images, we build our ViG model to transform and exchange information among all
the nodes. ViG consists of two basic modules: Grapher module with graph
convolution for aggregating and updating graph information, and FFN module with
two linear layers for node feature transformation. Both isotropic and pyramid
architectures of ViG are built with different model sizes. Extensive
experiments on image recognition and object detection tasks demonstrate the
superiority of our ViG architecture. We hope this pioneering study of GNN on
general visual tasks will provide useful inspiration and experience for future
research. The PyTroch code will be available at
https://github.com/huawei-noah/CV-Backbones and the MindSpore code will be
avaiable at https://gitee.com/mindspore/models.
- Abstract(参考訳): ネットワークアーキテクチャはディープラーニングベースのコンピュータビジョンシステムにおいて重要な役割を果たす。
広く使われている畳み込みニューラルネットワークとトランスフォーマーは、画像が不規則で複雑なオブジェクトをキャプチャする柔軟性のないグリッドまたはシーケンス構造として扱う。
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出する新しいVision GNN(ViG)アーキテクチャを提案する。
まず、画像をノードと見なされる多数のパッチに分割し、最寄りの隣接ノードを接続してグラフを構築する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
ViGはグラフ情報を集約・更新するためのグラフ畳み込み付きグラフモジュールと、ノード特徴変換のための2つの線形層を持つFFNモジュールの2つの基本モジュールで構成されている。
ViGの等方性とピラミッドアーキテクチャはどちらも異なるモデルサイズで構築されている。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を示している。
GNNの一般的な視覚的タスクに関する先駆的な研究が、将来の研究に有用なインスピレーションと経験を提供することを期待している。
PyTrochコードはhttps://github.com/huawei-noah/CV-Backbonesで利用でき、MindSporeコードはhttps://gitee.com/mindspore/modelsで利用できる。
関連論文リスト
- ClusterViG: Efficient Globally Aware Vision GNNs via Image Partitioning [7.325055402812975]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)がコンピュータビジョン(CV)の分野を支配している。
このボトルネックに対処する最近の研究は、非構造化グラフを構築するためのGNNの柔軟性に制約を課している。
そこで本稿では, 動的効率性グラフ畳み込み (DEGC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-18T02:59:10Z) - GIMS: Image Matching System Based on Adaptive Graph Construction and Graph Neural Network [7.711922592226936]
本稿では,距離と動的しきい値の類似性に基づくフィルタリング機構を利用する,革新的な適応グラフ構築手法を提案する。
また、トランスフォーマーのグローバルな認識能力を組み合わせて、グラフ構造の表現を強化する。
システム全体のマッチング性能は平均3.8x-40.3x向上した。
論文 参考訳(メタデータ) (2024-12-24T07:05:55Z) - SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
ビジョントランスフォーマー(ViT)は、イメージパッチ間の複雑なパターンと長距離依存関係をキャプチャするために自己アテンションを活用することで、イメージ分類を再定義している。
ViTsの重要な課題は、階層構造を通じて畳み込みニューラルネットワーク(CNN)に固有のマルチスケールの特徴表現を効率的に組み込むことである。
我々は、CNNのマルチスケール機能、ViTの表現力、グラフ付きパッチ機能を統合し、よりリッチなコンテキスト表現を可能にするスケールアウェアグラフ注意型ViTであるSAG-ViTを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - UniG-Encoder: A Universal Feature Encoder for Graph and Hypergraph Node
Classification [6.977634174845066]
グラフおよびハイパーグラフ表現学習のための普遍的特徴エンコーダ(UniG-Encoder)が設計されている。
アーキテクチャは、連結ノードのトポロジ的関係をエッジやハイパーエッジに前方変換することから始まる。
符号化されたノードの埋め込みは、投影行列の変換によって記述された逆変換から導かれる。
論文 参考訳(メタデータ) (2023-08-03T09:32:50Z) - Graph Neural Networks in Vision-Language Image Understanding: A Survey [6.813036707969848]
2次元画像理解はコンピュータビジョンの複雑な問題である。
それは人間レベルのシーン理解を提供する鍵を握る。
近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなっている。
論文 参考訳(メタデータ) (2023-03-07T09:56:23Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Graph Neural Networks with Learnable Structural and Positional
Representations [83.24058411666483]
任意のグラフの大きな問題は、ノードの標準位置情報の欠如である。
ノードの位置ノード(PE)を導入し、Transformerのように入力層に注入する。
両方のGNNクラスで学習可能なPEを考えると、分子データセットのパフォーマンスは2.87%から64.14%に向上する。
論文 参考訳(メタデータ) (2021-10-15T05:59:15Z) - GraphSVX: Shapley Value Explanations for Graph Neural Networks [81.83769974301995]
グラフニューラルネットワーク(GNN)は、幾何データに基づく様々な学習タスクにおいて大きな性能を発揮する。
本稿では,既存のGNN解説者の多くが満足する統一フレームワークを提案する。
GNN用に特別に設計されたポストホックローカルモデル非依存説明法であるGraphSVXを紹介します。
論文 参考訳(メタデータ) (2021-04-18T10:40:37Z) - Graph Contrastive Learning with Augmentations [109.23158429991298]
グラフデータの教師なし表現を学習するためのグラフコントラスト学習(GraphCL)フレームワークを提案する。
我々のフレームワークは、最先端の手法と比較して、類似またはより良い一般化可能性、転送可能性、堅牢性のグラフ表現を作成できることを示す。
論文 参考訳(メタデータ) (2020-10-22T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。