論文の概要: A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA
- arxiv url: http://arxiv.org/abs/2206.14989v1
- Date: Thu, 30 Jun 2022 02:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:48:55.623736
- Title: A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA
- Title(参考訳): 知識に基づくVQAのための一貫したエンドツーエンド検索フレームワーク
- Authors: Yangyang Guo, Liqiang Nie, Yongkang Wong, Yibing Liu, Zhiyong Cheng
and Mohan Kankanhalli
- Abstract要約: 本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
- 参考スコア(独自算出の注目度): 67.75989848202343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (VQA) expects models to rely on
external knowledge for robust answer prediction. Though significant it is, this
paper discovers several leading factors impeding the advancement of current
state-of-the-art methods. On the one hand, methods which exploit the explicit
knowledge take the knowledge as a complement for the coarsely trained VQA
model. Despite their effectiveness, these approaches often suffer from noise
incorporation and error propagation. On the other hand, pertaining to the
implicit knowledge, the multi-modal implicit knowledge for knowledge-based VQA
still remains largely unexplored. This work presents a unified end-to-end
retriever-reader framework towards knowledge-based VQA. In particular, we shed
light on the multi-modal implicit knowledge from vision-language pre-training
models to mine its potential in knowledge reasoning. As for the noise problem
encountered by the retrieval operation on explicit knowledge, we design a novel
scheme to create pseudo labels for effective knowledge supervision. This scheme
is able to not only provide guidance for knowledge retrieval, but also drop
these instances potentially error-prone towards question answering. To validate
the effectiveness of the proposed method, we conduct extensive experiments on
the benchmark dataset. The experimental results reveal that our method
outperforms existing baselines by a noticeable margin. Beyond the reported
numbers, this paper further spawns several insights on knowledge utilization
for future research with some empirical findings.
- Abstract(参考訳): 知識に基づくビジュアル質問回答(VQA)は、モデルが堅牢な回答予測のために外部知識に依存することを期待している。
重要なことではあるが,本論文は最先端の手法の進歩を阻害する要因をいくつか発見する。
一方、明示的な知識を利用する手法は、粗い訓練を受けたVQAモデルの補完として知識を取り入れている。
その効果にもかかわらず、これらのアプローチはしばしばノイズの取り込みと誤りの伝播に悩まされる。
一方、暗黙の知識に関して、知識に基づくVQAに対する多モードの暗黙の知識は、いまだほとんど未解明のままである。
本研究は,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
特に,視覚言語事前学習モデルからのマルチモーダル暗黙的知識に着目し,その知識推論の可能性について考察した。
明示的知識の検索操作によって生じる雑音問題については,効果的な知識監督のための擬似ラベルを作成するための新しいスキームを設計する。
このスキームは、知識検索のガイダンスを提供するだけでなく、これらのインスタンスをエラーを起こしやすいものにすることができる。
提案手法の有効性を検証するため,ベンチマークデータセット上で広範囲な実験を行った。
実験の結果,提案手法は既存のベースラインよりも顕著なマージンで優れていることがわかった。
報告されている数字以外にも,今後の研究における知識利用に関する知見がいくつか提示され,いくつかの実証的な知見が得られた。
関連論文リスト
- Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - Distinguish Before Answer: Generating Contrastive Explanation as
Knowledge for Commonsense Question Answering [61.53454387743701]
本稿では,概念中心のPrompt-bAsed Contrastive Explanation GenerationモデルであるCPACEを提案する。
CPACEは、得られたシンボル知識を、与えられた候補間の差異をよりよく区別するために、対照的な説明に変換する。
本稿では,CSQA,QASC,OBQAの3つの質問回答データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-14T12:12:24Z) - Ontology-enhanced Prompt-tuning for Few-shot Learning [41.51144427728086]
少ないショットラーニングは、限られたサンプル数に基づいて予測を行うことを目的としている。
知識グラフやオントロジーライブラリなどの構造化データは、様々なタスクにおける数ショット設定の恩恵を受けるために利用されてきた。
論文 参考訳(メタデータ) (2022-01-27T05:41:36Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - Incremental Knowledge Based Question Answering [52.041815783025186]
人間と同じように学習能力を段階的に拡張できるインクリメンタルKBQA学習フレームワークを提案します。
具体的には、破滅的な忘れ問題を克服するために、マージン希釈損失と協調選択方法からなる。
包括的な実験は、進化する知識ベースに取り組む際にその効果と効率を示す。
論文 参考訳(メタデータ) (2021-01-18T09:03:38Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Improving Commonsense Question Answering by Graph-based Iterative
Retrieval over Multiple Knowledge Sources [26.256653692882715]
疑問に答えるシステムにおいて、コモンセンスを効果的に活用する方法はまだ検討中である。
本研究では,ConceptNet,Wikipedia,Cambridge Dictionaryを統合した質問応答手法を提案する。
学習済みの言語モデルを用いて、質問を符号化し、知識と選択を検索し、回答の選択を意識した注意機構を提案する。
論文 参考訳(メタデータ) (2020-11-05T08:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。