論文の概要: Multi-Modal Answer Validation for Knowledge-Based VQA
- arxiv url: http://arxiv.org/abs/2103.12248v1
- Date: Tue, 23 Mar 2021 00:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:11:10.096440
- Title: Multi-Modal Answer Validation for Knowledge-Based VQA
- Title(参考訳): 知識に基づくVQAのためのマルチモーダル回答検証
- Authors: Jialin Wu, Jiasen Lu, Ashish Sabharwal, Roozbeh Mottaghi
- Abstract要約: 外部知識を用いたマルチモーダル回答検証(MAVEx)を提案する。
アイデアは、答え固有の知識検索に基づいて有望な回答候補のセットを検証することです。
難解な知識に基づくVQAデータセットであるOK-VQAを用いた実験により、MAVExが新しい最先端の結果を得ることを示す。
- 参考スコア(独自算出の注目度): 44.80209704315099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of knowledge-based visual question answering involves answering
questions that require external knowledge in addition to the content of the
image. Such knowledge typically comes in a variety of forms, including visual,
textual, and commonsense knowledge. The use of more knowledge sources, however,
also increases the chance of retrieving more irrelevant or noisy facts, making
it difficult to comprehend the facts and find the answer. To address this
challenge, we propose Multi-modal Answer Validation using External knowledge
(MAVEx), where the idea is to validate a set of promising answer candidates
based on answer-specific knowledge retrieval. This is in contrast to existing
approaches that search for the answer in a vast collection of often irrelevant
facts. Our approach aims to learn which knowledge source should be trusted for
each answer candidate and how to validate the candidate using that source. We
consider a multi-modal setting, relying on both textual and visual knowledge
resources, including images searched using Google, sentences from Wikipedia
articles, and concepts from ConceptNet. Our experiments with OK-VQA, a
challenging knowledge-based VQA dataset, demonstrate that MAVEx achieves new
state-of-the-art results.
- Abstract(参考訳): 知識に基づく視覚的質問応答の問題は、画像の内容に加えて外部知識を必要とする質問に答えることである。
このような知識は通常、視覚的、テキスト的、常識的な知識を含む様々な形態で提供される。
しかし、より多くの知識ソースを使用することで、より無関係または騒がしい事実を検索する可能性も高まり、事実を理解して答えを見つけるのが難しくなる。
この課題を解決するために,外部知識を用いたマルチモーダル回答検証(MAVEx)を提案する。
これは、しばしば無関係な事実を大量に集めて答えを求める既存のアプローチとは対照的である。
我々のアプローチは、回答候補ごとにどの知識ソースを信頼すべきか、そのソースを使って候補を検証する方法を学ぶことを目的としています。
我々は、Googleで検索した画像、Wikipediaの記事の文、ConceptNetのコンセプトなど、テキストと視覚の両方の知識リソースに依存したマルチモーダルな設定を考える。
難解な知識に基づくVQAデータセットであるOK-VQAを用いた実験により、MAVExが新しい最先端の結果を得ることを示す。
関連論文リスト
- Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - Knowledge Detection by Relevant Question and Image Attributes in Visual
Question Answering [0.0]
視覚的質問応答(VQA)は、自然言語処理とコンピュータビジョンの実践を通して追求される多分野の研究課題である。
提案手法は,画像属性と質問特徴を知識導出モジュールの入力とし,正確な回答を提供する画像オブジェクトに関する質問知識のみを検索する。
論文 参考訳(メタデータ) (2023-06-08T05:08:32Z) - VLC-BERT: Visual Question Answering with Contextualized Commonsense
Knowledge [48.457788853408616]
本稿では,視覚的・テキスト的手がかりとともに,外部の常識知識を生成,選択,符号化する手法を提案する。
VLC-BERTは静的知識ベースを利用した既存モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T22:01:17Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。