Fugu-MT 論文翻訳(概要): Vision GNN: An Image is Worth Graph of Nodes

論文の概要: Vision GNN: An Image is Worth Graph of Nodes

arxiv url: http://arxiv.org/abs/2206.00272v1
Date: Wed, 1 Jun 2022 07:01:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 12:19:19.816303
Title: Vision GNN: An Image is Worth Graph of Nodes
Title（参考訳）: Vision GNN:イメージはノードの貴重なグラフ
Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu
Abstract要約: 本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
参考スコア（独自算出の注目度）: 49.3335689216822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Network architecture plays a key role in the deep learning-based computer vision system. The widely-used convolutional neural network and transformer treat the image as a grid or sequence structure, which is not flexible to capture irregular and complex objects. In this paper, we propose to represent the image as a graph structure and introduce a new Vision GNN (ViG) architecture to extract graph-level feature for visual tasks. We first split the image to a number of patches which are viewed as nodes, and construct a graph by connecting the nearest neighbors. Based on the graph representation of images, we build our ViG model to transform and exchange information among all the nodes. ViG consists of two basic modules: Grapher module with graph convolution for aggregating and updating graph information, and FFN module with two linear layers for node feature transformation. Both isotropic and pyramid architectures of ViG are built with different model sizes. Extensive experiments on image recognition and object detection tasks demonstrate the superiority of our ViG architecture. We hope this pioneering study of GNN on general visual tasks will provide useful inspiration and experience for future research. The PyTroch code will be available at https://github.com/huawei-noah/CV-Backbones and the MindSpore code will be avaiable at https://gitee.com/mindspore/models.
Abstract（参考訳）: ネットワークアーキテクチャはディープラーニングベースのコンピュータビジョンシステムにおいて重要な役割を果たす。広く使われている畳み込みニューラルネットワークとトランスフォーマーは、画像が不規則で複雑なオブジェクトをキャプチャする柔軟性のないグリッドまたはシーケンス構造として扱う。本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出する新しいVision GNN(ViG)アーキテクチャを提案する。まず、画像をノードと見なされる多数のパッチに分割し、最寄りの隣接ノードを接続してグラフを構築する。画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。 ViGはグラフ情報を集約・更新するためのグラフ畳み込み付きグラフモジュールと、ノード特徴変換のための2つの線形層を持つFFNモジュールの2つの基本モジュールで構成されている。 ViGの等方性とピラミッドアーキテクチャはどちらも異なるモデルサイズで構築されている。画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を示している。 GNNの一般的な視覚的タスクに関する先駆的な研究が、将来の研究に有用なインスピレーションと経験を提供することを期待している。 PyTrochコードはhttps://github.com/huawei-noah/CV-Backbonesで利用でき、MindSporeコードはhttps://gitee.com/mindspore/modelsで利用できる。

関連論文リスト

GraphBridge: Towards Arbitrary Transfer Learning in GNNs [65.01790632978962]
GraphBridgeは、GNNの異なるタスクやドメイン間での知識伝達を可能にする新しいフレームワークである。予測ヘッドと入力を出力層に接続するブリッジングネットワークを備えた、事前訓練されたGNNの拡張を可能にする。これらのシナリオを代表する16以上のデータセットで実施された実証検証では、タスクとドメインに依存しないトランスファー学習のためのフレームワークの能力が確認されている。
論文参考訳（メタデータ） (2025-02-26T15:57:51Z)
ClusterViG: Efficient Globally Aware Vision GNNs via Image Partitioning [7.325055402812975]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)がコンピュータビジョン(CV)の分野を支配している。このボトルネックに対処する最近の研究は、非構造化グラフを構築するためのGNNの柔軟性に制約を課している。そこで本稿では, 動的効率性グラフ畳み込み (DEGC) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-18T02:59:10Z)
GIMS: Image Matching System Based on Adaptive Graph Construction and Graph Neural Network [7.711922592226936]
本稿では,距離と動的しきい値の類似性に基づくフィルタリング機構を利用する,革新的な適応グラフ構築手法を提案する。また、トランスフォーマーのグローバルな認識能力を組み合わせて、グラフ構造の表現を強化する。システム全体のマッチング性能は平均3.8x-40.3x向上した。
論文参考訳（メタデータ） (2024-12-24T07:05:55Z)
SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
ビジョントランスフォーマー(ViT)は、イメージパッチ間の複雑なパターンと長距離依存関係をキャプチャするために自己アテンションを活用することで、イメージ分類を再定義している。 ViTsの重要な課題は、階層構造を通じて畳み込みニューラルネットワーク(CNN)に固有のマルチスケールの特徴表現を効率的に組み込むことである。我々は、CNNのマルチスケール機能、ViTの表現力、グラフ付きパッチ機能を統合し、よりリッチなコンテキスト表現を可能にするスケールアウェアグラフ注意型ViTであるSAG-ViTを提案する。
論文参考訳（メタデータ） (2024-11-14T13:15:27Z)
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。 InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。 Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文参考訳（メタデータ） (2024-10-09T17:56:15Z)
GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文参考訳（メタデータ） (2023-08-28T07:50:04Z)
UniG-Encoder: A Universal Feature Encoder for Graph and Hypergraph Node Classification [6.977634174845066]
グラフおよびハイパーグラフ表現学習のための普遍的特徴エンコーダ(UniG-Encoder)が設計されている。アーキテクチャは、連結ノードのトポロジ的関係をエッジやハイパーエッジに前方変換することから始まる。符号化されたノードの埋め込みは、投影行列の変換によって記述された逆変換から導かれる。
論文参考訳（メタデータ） (2023-08-03T09:32:50Z)
ViG-UNet: Vision Graph Neural Networks for Medical Image Segmentation [7.802846775068384]
本稿では、エンコーダ、デコーダ、ボトルネック、スキップ接続を備えたグラフニューラルネットワークに基づくU字型アーキテクチャを提案する。 ISIC 2016 と ISIC 2017 と Kvasir-SEG のデータセットによる実験結果から,提案したアーキテクチャは,既存の古典的かつ最先端のU字型ネットワークよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-08T03:17:00Z)
Graph Neural Networks in Vision-Language Image Understanding: A Survey [6.813036707969848]
2次元画像理解はコンピュータビジョンの複雑な問題である。それは人間レベルのシーン理解を提供する鍵を握る。近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなっている。
論文参考訳（メタデータ） (2023-03-07T09:56:23Z)
Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文参考訳（メタデータ） (2022-09-20T14:41:37Z)
Graph Neural Networks with Learnable Structural and Positional Representations [83.24058411666483]
任意のグラフの大きな問題は、ノードの標準位置情報の欠如である。ノードの位置ノード(PE)を導入し、Transformerのように入力層に注入する。両方のGNNクラスで学習可能なPEを考えると、分子データセットのパフォーマンスは2.87%から64.14%に向上する。
論文参考訳（メタデータ） (2021-10-15T05:59:15Z)
GraphSVX: Shapley Value Explanations for Graph Neural Networks [81.83769974301995]
グラフニューラルネットワーク(GNN)は、幾何データに基づく様々な学習タスクにおいて大きな性能を発揮する。本稿では,既存のGNN解説者の多くが満足する統一フレームワークを提案する。 GNN用に特別に設計されたポストホックローカルモデル非依存説明法であるGraphSVXを紹介します。
論文参考訳（メタデータ） (2021-04-18T10:40:37Z)
Graph Contrastive Learning with Augmentations [109.23158429991298]
グラフデータの教師なし表現を学習するためのグラフコントラスト学習(GraphCL)フレームワークを提案する。我々のフレームワークは、最先端の手法と比較して、類似またはより良い一般化可能性、転送可能性、堅牢性のグラフ表現を作成できることを示す。
論文参考訳（メタデータ） (2020-10-22T20:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。