論文の概要: Syntax Tree Constrained Graph Network for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2309.09179v1
- Date: Sun, 17 Sep 2023 07:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:01:43.723333
- Title: Syntax Tree Constrained Graph Network for Visual Question Answering
- Title(参考訳): 視覚質問応答のための構文木制約グラフネットワーク
- Authors: Xiangrui Su, Qi Zhang, Chongyang Shi, Jiachang Liu, and Liang Hu
- Abstract要約: Visual Question Answering (VQA)は、与えられた画像コンテンツに関連する自然言語の質問に自動的に答えることを目的としている。
本稿では、エンティティメッセージパッシングと構文木に基づくVQAのための新しい構文木制約グラフネットワーク(STCGN)を提案する。
次に、フレーズ認識型視覚エンティティのためのメッセージパッシング機構を設計し、与えられた視覚コンテキストに応じてエンティティ特徴をキャプチャする。
- 参考スコア(独自算出の注目度): 14.059645822205718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) aims to automatically answer natural language
questions related to given image content. Existing VQA methods integrate vision
modeling and language understanding to explore the deep semantics of the
question. However, these methods ignore the significant syntax information of
the question, which plays a vital role in understanding the essential semantics
of the question and guiding the visual feature refinement. To fill the gap, we
suggested a novel Syntax Tree Constrained Graph Network (STCGN) for VQA based
on entity message passing and syntax tree. This model is able to extract a
syntax tree from questions and obtain more precise syntax information.
Specifically, we parse questions and obtain the question syntax tree using the
Stanford syntax parsing tool. From the word level and phrase level, syntactic
phrase features and question features are extracted using a hierarchical tree
convolutional network. We then design a message-passing mechanism for
phrase-aware visual entities and capture entity features according to a given
visual context. Extensive experiments on VQA2.0 datasets demonstrate the
superiority of our proposed model.
- Abstract(参考訳): Visual Question Answering (VQA)は、与えられた画像コンテンツに関連する自然言語の質問に自動的に答えることを目的としている。
既存のVQA手法は、視覚モデルと言語理解を統合し、問題の深い意味を探求する。
しかし,これらの手法は,問題の本質的な意味を理解し,視覚的特徴の洗練を導く上で重要な役割を担っている,重要な構文情報を無視している。
このギャップを埋めるために、エンティティメッセージパッシングと構文木に基づくVQAのための新しいSyntax Tree Constrained Graph Network (STCGN)を提案する。
このモデルは質問から構文木を抽出し、より正確な構文情報を得ることができる。
具体的には,stanford構文解析ツールを用いて質問を解析し,質問構文木を得る。
単語レベルとフレーズレベルから,階層木畳み込みネットワークを用いて統語句の特徴と疑問特徴を抽出する。
次に、フレーズ認識型視覚エンティティのためのメッセージパッシング機構を設計し、与えられた視覚コンテキストに応じてエンティティ特徴をキャプチャする。
VQA2.0データセットに関する大規模な実験は、提案モデルが優れていることを示す。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Text-Aware Dual Routing Network for Visual Question Answering [11.015339851906287]
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
論文 参考訳(メタデータ) (2022-11-17T02:02:11Z) - Discourse Analysis via Questions and Answers: Parsing Dependency
Structures of Questions Under Discussion [57.43781399856913]
この研究は、談話分析にQUD(Language framework of Questions Under discussion)を採用する。
我々は、文間の関係を、徹底的なきめ細かい質問とは対照的に、自由形式の質問として特徴づける。
完全文書上の質問の依存関係構造を導出する第一種QUDを開発する。
論文 参考訳(メタデータ) (2022-10-12T03:53:12Z) - Exploiting Rich Syntax for Better Knowledge Base Question Answering [13.890818931081405]
本稿では,知識ベース質問回答のための構文ベース表現の学習手法を提案する。
まず、キーワード間の最も短い依存性パスを考慮し、パスベースの構文をエンコードする。
そこで我々は,木をベースとした構文を得るために,構文木全体の情報をモデレートするための2つの符号化手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T14:59:05Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Augmenting Visual Question Answering with Semantic Frame Information in
a Multitask Learning Approach [1.827510863075184]
本稿では,CNN-LSTM VQAモデルを提案する。
実験により,VQAシステムでは不整合応答が回避され,性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-01-31T06:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。