論文の概要: Graph Neural Networks in Vision-Language Image Understanding: A Survey
- arxiv url: http://arxiv.org/abs/2303.03761v2
- Date: Fri, 12 Apr 2024 06:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 20:15:54.670903
- Title: Graph Neural Networks in Vision-Language Image Understanding: A Survey
- Title(参考訳): 視覚言語画像理解におけるグラフニューラルネットワーク:サーベイ
- Authors: Henry Senior, Gregory Slabaugh, Shanxin Yuan, Luca Rossi,
- Abstract要約: 2次元画像理解はコンピュータビジョンの複雑な問題である。
それは人間レベルのシーン理解を提供する鍵を握る。
近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなっている。
- 参考スコア(独自算出の注目度): 6.813036707969848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 2D image understanding is a complex problem within computer vision, but it holds the key to providing human-level scene comprehension. It goes further than identifying the objects in an image, and instead, it attempts to understand the scene. Solutions to this problem form the underpinning of a range of tasks, including image captioning, visual question answering (VQA), and image retrieval. Graphs provide a natural way to represent the relational arrangement between objects in an image, and thus, in recent years graph neural networks (GNNs) have become a standard component of many 2D image understanding pipelines, becoming a core architectural component, especially in the VQA group of tasks. In this survey, we review this rapidly evolving field and we provide a taxonomy of graph types used in 2D image understanding approaches, a comprehensive list of the GNN models used in this domain, and a roadmap of future potential developments. To the best of our knowledge, this is the first comprehensive survey that covers image captioning, visual question answering, and image retrieval techniques that focus on using GNNs as the main part of their architecture.
- Abstract(参考訳): 2D画像理解はコンピュータビジョンの複雑な問題であるが、人間レベルのシーン理解を提供する鍵を握る。
画像中のオブジェクトを識別するだけでなく、シーンを理解しようとする。
この問題の解決策は、画像キャプション、視覚的質問応答(VQA)、画像検索など、様々なタスクの基盤を形成する。
グラフは、画像内のオブジェクト間の関係的な配置を表現する自然な方法であり、近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなり、特にタスクのVQAグループにおいて、コアアーキテクチャコンポーネントとなっている。
本稿では,2次元画像理解手法におけるグラフタイプの分類,領域におけるGNNモデルの包括的リスト,今後の展開のロードマップについて概説する。
我々の知る限りでは、GNNをアーキテクチャの主部分として活用することに焦点を当てた画像キャプション、視覚的質問応答、画像検索技術をカバーする、初めての総合的な調査である。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective [71.03621840455754]
グラフニューラルネットワーク(GNN)はグラフ表現学習において勢いを増している。
Graph Transformerは、グラフ構造をTransformerアーキテクチャに組み込んで、局所的な近傍集約の制限を克服します。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフトランスフォーマーの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-09-27T08:10:14Z) - Vision GNN: An Image is Worth Graph of Nodes [49.3335689216822]
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-06-01T07:01:04Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Scene Graph Generation with Geometric Context [12.074766935042586]
画像の視覚的に接地されたグラフィカルな構造であるシーングラフは、画像理解タスクを単純化するのに非常に役立ちます。
視覚シーンをより幾何学的に理解するために,Geometric Contextというポストプロセッシングアルゴリズムを導入する。
このコンテキストを利用して、オブジェクトペア間の方向と距離を計算する。
論文 参考訳(メタデータ) (2021-11-25T15:42:21Z) - Understanding the Role of Scene Graphs in Visual Question Answering [26.02889386248289]
我々はGQAデータセット上で実験を行い、計数、構成性、高度な推論能力を必要とする質問の挑戦的なセットを示す。
我々は,シーングラフに使用する画像+質問アーキテクチャを採用し,未認識画像の様々なシーングラフ生成手法を評価し,人間の注釈と自動生成シーングラフを活用するためのトレーニングカリキュラムを提案する。
視覚質問応答におけるシーングラフの利用に関する多面的研究を行い,本研究を第一種とした。
論文 参考訳(メタデータ) (2021-01-14T07:27:37Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。