論文の概要: Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2107.06325v1
- Date: Tue, 13 Jul 2021 18:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 04:43:56.629470
- Title: Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question
Answering
- Title(参考訳): Graphhopper: ビジュアル質問応答のためのマルチホップシーングラフ推論
- Authors: Rajat Koner, Hang Li, Marcel Hildebrandt, Deepan Das, Volker Tresp,
Stephan G\"unnemann
- Abstract要約: Graphhopperは知識グラフ推論、コンピュータビジョン、自然言語処理技術を統合することでタスクにアプローチする新しい手法である。
画像中のオブジェクトとその属性と相互関係を記述したシーングラフを導出する。
強化学習エージェントは、抽出されたシーングラフ上でマルチホップで自律的にナビゲートし、推論経路を生成するように訓練される。
- 参考スコア(独自算出の注目度): 13.886692497676659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) is concerned with answering free-form
questions about an image. Since it requires a deep semantic and linguistic
understanding of the question and the ability to associate it with various
objects that are present in the image, it is an ambitious task and requires
multi-modal reasoning from both computer vision and natural language
processing. We propose Graphhopper, a novel method that approaches the task by
integrating knowledge graph reasoning, computer vision, and natural language
processing techniques. Concretely, our method is based on performing
context-driven, sequential reasoning based on the scene entities and their
semantic and spatial relationships. As a first step, we derive a scene graph
that describes the objects in the image, as well as their attributes and their
mutual relationships. Subsequently, a reinforcement learning agent is trained
to autonomously navigate in a multi-hop manner over the extracted scene graph
to generate reasoning paths, which are the basis for deriving answers. We
conduct an experimental study on the challenging dataset GQA, based on both
manually curated and automatically generated scene graphs. Our results show
that we keep up with a human performance on manually curated scene graphs.
Moreover, we find that Graphhopper outperforms another state-of-the-art scene
graph reasoning model on both manually curated and automatically generated
scene graphs by a significant margin.
- Abstract(参考訳): VQA(Visual Question Answering)とは、画像に関する自由形式の質問に答えることである。
疑問に対する深い意味的・言語的な理解と、画像に存在する様々なオブジェクトと関連付ける能力を必要とするため、これは野心的な作業であり、コンピュータビジョンと自然言語処理の両方からマルチモーダルな推論を必要とする。
本稿では,知識グラフ推論,コンピュータビジョン,自然言語処理技術を統合した新しい手法であるGraphhopperを提案する。
具体的には,シーンエンティティとその意味的・空間的関係に基づいて,コンテキスト駆動のシーケンシャルな推論を行う。
最初のステップとして、画像内のオブジェクトとその属性とその相互関係を記述するシーングラフを導出する。
その後、強化学習エージェントを訓練し、抽出されたシーングラフをマルチホップで自律的にナビゲートし、回答を導出する基礎となる推論パスを生成する。
我々は,手動でキュレートされたシーングラフと自動生成されたシーングラフの両方に基づいて,挑戦的なデータセットGQAについて実験を行った。
この結果から,手作業によるシーングラフの人為的パフォーマンスに追随することを示す。
さらに,グラフホッパーは,手作業で収集したシーングラフと自動生成したシーングラフの両方に対して,最先端のシーングラフ推論モデルよりも大幅に優れていることがわかった。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based
Question Answering [0.0]
シーングラフはマルチモーダル画像解析の有用なツールとして登場した。
理想化されたアノテートシーングラフを利用する現在の手法は、画像から抽出された予測シーングラフを使用する場合、一般化に苦慮している。
本稿では,事前学習したシーングラフ生成器を用いて,入力画像からシーングラフを抽出する。
論文 参考訳(メタデータ) (2023-10-03T07:14:53Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - A Comprehensive Survey of Scene Graphs: Generation and Application [42.07469181785126]
シーングラフ(Scene graph)は、シーン内のオブジェクト間のオブジェクト、属性、関係を明確に表現できるシーンの構造化された表現である。
現在、シーングラフの比較的体系的な調査は行われていない。
論文 参考訳(メタデータ) (2021-03-17T04:24:20Z) - Understanding the Role of Scene Graphs in Visual Question Answering [26.02889386248289]
我々はGQAデータセット上で実験を行い、計数、構成性、高度な推論能力を必要とする質問の挑戦的なセットを示す。
我々は,シーングラフに使用する画像+質問アーキテクチャを採用し,未認識画像の様々なシーングラフ生成手法を評価し,人間の注釈と自動生成シーングラフを活用するためのトレーニングカリキュラムを提案する。
視覚質問応答におけるシーングラフの利用に関する多面的研究を行い,本研究を第一種とした。
論文 参考訳(メタデータ) (2021-01-14T07:27:37Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。