論文の概要: Scene Graph Reasoning for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2007.01072v1
- Date: Thu, 2 Jul 2020 13:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 12:57:47.815305
- Title: Scene Graph Reasoning for Visual Question Answering
- Title(参考訳): 視覚的質問応答のためのシーングラフ推論
- Authors: Marcel Hildebrandt, Hang Li, Rajat Koner, Volker Tresp, Stephan
G\"unnemann
- Abstract要約: 本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
- 参考スコア(独自算出の注目度): 23.57543808056452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering is concerned with answering free-form questions
about an image. Since it requires a deep linguistic understanding of the
question and the ability to associate it with various objects that are present
in the image, it is an ambitious task and requires techniques from both
computer vision and natural language processing. We propose a novel method that
approaches the task by performing context-driven, sequential reasoning based on
the objects and their semantic and spatial relationships present in the scene.
As a first step, we derive a scene graph which describes the objects in the
image, as well as their attributes and their mutual relationships. A
reinforcement agent then learns to autonomously navigate over the extracted
scene graph to generate paths, which are then the basis for deriving answers.
We conduct a first experimental study on the challenging GQA dataset with
manually curated scene graphs, where our method almost reaches the level of
human performance.
- Abstract(参考訳): 視覚的な質問応答は、画像に関する自由形式の質問に答えることに関するものである。
問題に対する深い言語的理解と、画像に存在する様々なオブジェクトと関連付ける能力を必要とするため、これは野心的な課題であり、コンピュータビジョンと自然言語処理の両方の技法を必要とする。
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動の逐次推論を行うことによってタスクにアプローチする手法を提案する。
最初のステップとして、画像内のオブジェクトとその属性とその相互関係を記述するシーングラフを導出する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
我々は,手作業で収集したシーングラフを用いて,挑戦的なgqaデータセットを初めて実験的に検討した。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question
Answering [13.886692497676659]
Graphhopperは知識グラフ推論、コンピュータビジョン、自然言語処理技術を統合することでタスクにアプローチする新しい手法である。
画像中のオブジェクトとその属性と相互関係を記述したシーングラフを導出する。
強化学習エージェントは、抽出されたシーングラフ上でマルチホップで自律的にナビゲートし、推論経路を生成するように訓練される。
論文 参考訳(メタデータ) (2021-07-13T18:33:04Z) - A Comprehensive Survey of Scene Graphs: Generation and Application [42.07469181785126]
シーングラフ(Scene graph)は、シーン内のオブジェクト間のオブジェクト、属性、関係を明確に表現できるシーンの構造化された表現である。
現在、シーングラフの比較的体系的な調査は行われていない。
論文 参考訳(メタデータ) (2021-03-17T04:24:20Z) - Understanding the Role of Scene Graphs in Visual Question Answering [26.02889386248289]
我々はGQAデータセット上で実験を行い、計数、構成性、高度な推論能力を必要とする質問の挑戦的なセットを示す。
我々は,シーングラフに使用する画像+質問アーキテクチャを採用し,未認識画像の様々なシーングラフ生成手法を評価し,人間の注釈と自動生成シーングラフを活用するためのトレーニングカリキュラムを提案する。
視覚質問応答におけるシーングラフの利用に関する多面的研究を行い,本研究を第一種とした。
論文 参考訳(メタデータ) (2021-01-14T07:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。