論文の概要: REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2206.01201v1
- Date: Thu, 2 Jun 2022 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:25:46.136080
- Title: REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering
- Title(参考訳): ReVIVE:知識に基づく視覚質問応答における地域視覚表現の課題
- Authors: Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, Lu
Yuan
- Abstract要約: 本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
- 参考スコア(独自算出の注目度): 75.53187719777812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper revisits visual representation in knowledge-based visual question
answering (VQA) and demonstrates that using regional information in a better
way can significantly improve the performance. While visual representation is
extensively studied in traditional VQA, it is under-explored in knowledge-based
VQA even though these two tasks share the common spirit, i.e., rely on visual
input to answer the question. Specifically, we observe that in most
state-of-the-art knowledge-based VQA methods: 1) visual features are extracted
either from the whole image or in a sliding window manner for retrieving
knowledge, and the important relationship within/among object regions is
neglected; 2) visual features are not well utilized in the final answering
model, which is counter-intuitive to some extent. Based on these observations,
we propose a new knowledge-based VQA method REVIVE, which tries to utilize the
explicit information of object regions not only in the knowledge retrieval
stage but also in the answering model. The key motivation is that object
regions and inherent relationships are important for knowledge-based VQA. We
perform extensive experiments on the standard OK-VQA dataset and achieve new
state-of-the-art performance, i.e., 58.0% accuracy, surpassing previous
state-of-the-art method by a large margin (+3.6%). We also conduct detailed
analysis and show the necessity of regional information in different framework
components for knowledge-based VQA.
- Abstract(参考訳): 本稿では,知識に基づく視覚的質問応答(vqa)における視覚的表現を再検討し,地域情報をよりよい方法で利用することで,パフォーマンスを著しく向上できることを実証する。
視覚的表現は伝統的なvqaで広く研究されているが、これらの2つのタスクは共通の精神を共有しているにもかかわらず、知識ベースのvqaでは未熟である。
具体的には、ほとんどの最先端の知識に基づくVQA手法について述べる。
1) 視覚的特徴を全体像から抽出し,かつ,知識を取得するためにスライドウィンドウで抽出し,対象領域内の重要な関係を無視する。
2) 視覚的特徴は, ある程度は直感に反する最終回答モデルではよく利用されない。
そこで本研究では,知識検索段階だけでなく,回答モデルにおいても対象領域の明示的な情報を活用するための,知識に基づく新たなVQA手法REVIVEを提案する。
主な動機は、オブジェクト領域と固有の関係が知識に基づくVQAにとって重要であることである。
我々は、標準OK-VQAデータセットの広範な実験を行い、58.0%の精度で新しい最先端性能を実現し、従来の最先端手法を大きなマージン(+3.6%)で上回った。
また,詳細な分析を行い,知識ベースvqaにおける異なる枠組みコンポーネントにおける地域情報の必要性を示す。
関連論文リスト
- Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。
DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。
本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:44:20Z) - Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual
Question Answering [27.38981906033932]
Outside-Knowledge Visual Question Answering (OK-VQA) システムは、まず外部知識を取得して回答を予測する2段階のフレームワークを使用している。
検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。
本稿では,より具体的な知識を得るのに役立つ質問関連エンティティを識別し,トレーニング中のより強力な監視を提供するEntity-Focused Retrieval(EnFoRe)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T21:39:24Z) - Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for
Knowledge-based Visual Question Answering [18.926582410644375]
知識に基づく視覚的質問応答(VQA)は、エージェントが画像関連の質問に正しく答えることを必要とする視覚言語タスクである。
動的知識メモリ強化多段階グラフ推論(DMMGR)という新しいモデルを提案する。
我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-06T15:19:39Z) - Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。
最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2021-12-13T18:45:42Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。