論文の概要: Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2006.09073v3
- Date: Wed, 4 Nov 2020 01:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:35:43.840665
- Title: Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual
Question Answering
- Title(参考訳): Mucko: Fact-based Visual Question Answeringのための多層クロスモーダル知識推論
- Authors: Zihao Zhu, Jing Yu, Yujing Wang, Yajing Sun, Yue Hu, Qi Wu
- Abstract要約: FVQAは、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
問題指向で情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。
与えられた問題に最も関係のある異なる層から証拠を捉えるために,モダリティを考慮した異種グラフ畳み込みネットワークを提案する。
- 参考スコア(独自算出の注目度): 26.21870452615222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fact-based Visual Question Answering (FVQA) requires external knowledge
beyond visible content to answer questions about an image, which is challenging
but indispensable to achieve general VQA. One limitation of existing FVQA
solutions is that they jointly embed all kinds of information without
fine-grained selection, which introduces unexpected noises for reasoning the
final answer. How to capture the question-oriented and
information-complementary evidence remains a key challenge to solve the
problem. In this paper, we depict an image by a multi-modal heterogeneous
graph, which contains multiple layers of information corresponding to the
visual, semantic and factual features. On top of the multi-layer graph
representations, we propose a modality-aware heterogeneous graph convolutional
network to capture evidence from different layers that is most relevant to the
given question. Specifically, the intra-modal graph convolution selects
evidence from each modality and cross-modal graph convolution aggregates
relevant information across different modalities. By stacking this process
multiple times, our model performs iterative reasoning and predicts the optimal
answer by analyzing all question-oriented evidence. We achieve a new
state-of-the-art performance on the FVQA task and demonstrate the effectiveness
and interpretability of our model with extensive experiments.
- Abstract(参考訳): Fact-based Visual Question Answering (FVQA)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
既存のFVQAソリューションの1つの制限は、細かな選択なしにあらゆる種類の情報を共同で埋め込み、最終的な答えを推論するための予期せぬノイズを導入することである。
質問指向と情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。
本稿では,視覚的,意味的,事実的特徴に対応する複数の情報層を含む多様不均質グラフによる画像について述べる。
多層グラフ表現の上に、与えられた問題に最も関係のある異なる層から証拠を捉えるために、モダリティ対応の不均一グラフ畳み込みネットワークを提案する。
具体的には、モダリティ内グラフ畳み込みは各モダリティからエビデンスを選択し、クロスモーダルグラフ畳み込みは異なるモダリティ間で関連する情報を集約する。
このプロセスを複数回積み重ねることで、反復的推論を行い、全ての質問指向の証拠を分析して最適解を予測する。
fvqaタスクで新たな最先端性能を達成し,広範な実験によりモデルの有効性と解釈可能性を示す。
関連論文リスト
- Multimodal Commonsense Knowledge Distillation for Visual Question Answering [12.002744625599425]
本稿では,教師の学習環境に追従したグラフ畳み込みネットワーク(GCN)を通して,共通知識,視覚オブジェクト,質問に対する統一的なグラフを構築する,新しいグラフベースのマルチモーダルコモンセンス知識蒸留フレームワークを提案する。
提案するフレームワークは,教師モデルや学生モデルに対して,さらなる微調整を行なわずに柔軟であり,ScienceQAデータセット上での競争性能を達成している。
論文 参考訳(メタデータ) (2024-11-05T01:37:16Z) - Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Bridge to Answer: Structure-aware Graph Interaction Network for Video
Question Answering [56.65656211928256]
本稿では,ある映像に対する質問に対する正しい回答を推測する新しい手法である「回答のためのブリッジ」を提案する。
映像と問合せの関係を利用して,問答間インタラクションを用いて各視覚ノードを有効化することにより,質問条件付きビジュアルグラフを学習する。
本手法は,映像質問応答に強力な能力を示す外観と動作に起因する質問条件付き視覚表現を学習できる。
論文 参考訳(メタデータ) (2021-04-29T03:02:37Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。