論文の概要: A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
- arxiv url: http://arxiv.org/abs/2209.13232v4
- Date: Wed, 14 Aug 2024 09:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 18:56:36.680358
- Title: A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
- Title(参考訳): コンピュータビジョンにおけるグラフニューラルネットワークとグラフ変換器に関する調査:タスク指向の視点から
- Authors: Chaoqi Chen, Yushuang Wu, Qiyuan Dai, Hong-Yu Zhou, Mutian Xu, Sibei Yang, Xiaoguang Han, Yizhou Yu,
- Abstract要約: グラフニューラルネットワーク(GNN)はグラフ表現学習において勢いを増している。
Graph Transformerは、グラフ構造をTransformerアーキテクチャに組み込んで、局所的な近傍集約の制限を克服します。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフトランスフォーマーの総合的なレビューを行う。
- 参考スコア(独自算出の注目度): 71.03621840455754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Neural Networks (GNNs) have gained momentum in graph representation learning and boosted the state of the art in a variety of areas, such as data mining (\emph{e.g.,} social network analysis and recommender systems), computer vision (\emph{e.g.,} object detection and point cloud learning), and natural language processing (\emph{e.g.,} relation extraction and sequence learning), to name a few. With the emergence of Transformers in natural language processing and computer vision, graph Transformers embed a graph structure into the Transformer architecture to overcome the limitations of local neighborhood aggregation while avoiding strict structural inductive biases. In this paper, we present a comprehensive review of GNNs and graph Transformers in computer vision from a task-oriented perspective. Specifically, we divide their applications in computer vision into five categories according to the modality of input data, \emph{i.e.,} 2D natural images, videos, 3D data, vision + language, and medical images. In each category, we further divide the applications according to a set of vision tasks. Such a task-oriented taxonomy allows us to examine how each task is tackled by different GNN-based approaches and how well these approaches perform. Based on the necessary preliminaries, we provide the definitions and challenges of the tasks, in-depth coverage of the representative approaches, as well as discussions regarding insights, limitations, and future directions.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)は、グラフ表現学習において勢いを増し、データマイニング(\emph{e g ,} ソーシャルネットワーク分析とレコメンデーションシステム)、コンピュータビジョン(\emph{e g ,} オブジェクト検出とポイントクラウド学習)、自然言語処理(\emph{e g ,} 関係抽出とシーケンス学習)など、さまざまな分野における最先端技術を強化している。
自然言語処理やコンピュータビジョンにおけるトランスフォーマーの出現に伴い、グラフトランスフォーマーはトランスフォーマーアーキテクチャにグラフ構造を組み込んで、厳密な構造的帰納バイアスを回避しつつ、局所的な近傍集約の限界を克服する。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフ変換器の総合的なレビューを行う。
具体的には,2次元の自然画像,ビデオ,3次元データ,視覚+言語,医療画像のモダリティに応じて,コンピュータビジョンにおけるそれらの応用を5つのカテゴリに分割する。
各カテゴリにおいて、視覚タスクのセットに応じてアプリケーションをさらに分割する。
このようなタスク指向の分類法により、各タスクが異なるGNNベースのアプローチによってどのように取り組まれているか、そしてこれらのアプローチがいかにうまく機能するかを調べることができる。
必要な前提に基づいて,タスクの定義と課題,代表的アプローチの詳細なカバレッジ,洞察,制限,今後の方向性に関する議論を提供する。
関連論文リスト
- A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Graph Transformers: A Survey [15.68583521879617]
グラフトランスフォーマーは機械学習の最近の進歩であり、グラフ構造化データのためのニューラルネットワークモデルの新たなクラスを提供する。
この調査は、グラフトランスフォーマー研究における最近の進歩と課題について、詳細なレビューを提供する。
論文 参考訳(メタデータ) (2024-07-13T05:15:24Z) - A Survey on Structure-Preserving Graph Transformers [2.5252594834159643]
本稿では, 構造保存グラフ変換器の概要を概観し, 設計目的の観点からそれらの手法を一般化する。
また、グラフ構造を保存し、グラフの性質を理解するためのグラフトランスフォーマーモデルの課題と今後の方向性についても論じる。
論文 参考訳(メタデータ) (2024-01-29T14:18:09Z) - Graph Neural Networks in Vision-Language Image Understanding: A Survey [6.813036707969848]
2次元画像理解はコンピュータビジョンの複雑な問題である。
それは人間レベルのシーン理解を提供する鍵を握る。
近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなっている。
論文 参考訳(メタデータ) (2023-03-07T09:56:23Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Graph Neural Networks: Methods, Applications, and Opportunities [1.2183405753834562]
本稿では,各学習環境におけるグラフニューラルネットワーク(GNN)の包括的調査について報告する。
各学習課題に対するアプローチは、理論的および経験的視点の両方から分析される。
さまざまなアプリケーションやベンチマークデータセットも提供されており、GNNの一般適用性に疑問が残るオープンな課題もある。
論文 参考訳(メタデータ) (2021-08-24T13:46:19Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z) - GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [62.73470368851127]
グラフ表現学習は現実世界の問題に対処する強力な手法として登場した。
自己教師付きグラフニューラルネットワーク事前トレーニングフレームワークであるGraph Contrastive Codingを設計する。
3つのグラフ学習タスクと10のグラフデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-06-17T16:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。