論文の概要: Uncertainty-based Visual Question Answering: Estimating Semantic
Inconsistency between Image and Knowledge Base
- arxiv url: http://arxiv.org/abs/2207.13242v1
- Date: Wed, 27 Jul 2022 01:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 12:53:14.229897
- Title: Uncertainty-based Visual Question Answering: Estimating Semantic
Inconsistency between Image and Knowledge Base
- Title(参考訳): 不確実性に基づく視覚質問応答:画像と知識ベース間の意味的不整合の推定
- Authors: Jinyeong Chae and Jihie Kim
- Abstract要約: KVQAタスクは、画像や質問に対する理解だけでなく、追加の外部知識を必要とする質問に答えることを目的としている。
KVQAの最近の研究は、外部知識をマルチモーダル形式で注入し、より多くの知識が使用されるにつれて、無関係な情報が付加され、質問応答を混乱させる可能性がある。
- 参考スコア(独自算出の注目度): 0.7081604594416336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-based visual question answering (KVQA) task aims to answer
questions that require additional external knowledge as well as an
understanding of images and questions. Recent studies on KVQA inject an
external knowledge in a multi-modal form, and as more knowledge is used,
irrelevant information may be added and can confuse the question answering. In
order to properly use the knowledge, this study proposes the following: 1) we
introduce a novel semantic inconsistency measure computed from caption
uncertainty and semantic similarity; 2) we suggest a new external knowledge
assimilation method based on the semantic inconsistency measure and apply it to
integrate explicit knowledge and implicit knowledge for KVQA; 3) the proposed
method is evaluated with the OK-VQA dataset and achieves the state-of-the-art
performance.
- Abstract(参考訳): 知識に基づく視覚的質問応答(KVQA)タスクは、画像や質問に対する理解だけでなく、追加の外部知識を必要とする質問に答えることを目的としている。
KVQAの最近の研究は、外部知識をマルチモーダル形式で注入し、より多くの知識が使用されるにつれて、無関係な情報が付加され、質問応答を混乱させる可能性がある。
本研究は,知識を適切に活用するために,以下のことを提案する。
1) キャプションの不確実性と意味的類似性から算出した新しい意味的矛盾尺度を提案する。
2) 意味的不整合尺度に基づく新たな外部知識同化手法を提案し, KVQAの明示的知識と暗黙的知識の統合に応用する。
3) 提案手法はOK-VQAデータセットを用いて評価し,最先端の性能を実現する。
関連論文リスト
- Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - Distinguish Before Answer: Generating Contrastive Explanation as
Knowledge for Commonsense Question Answering [61.53454387743701]
本稿では,概念中心のPrompt-bAsed Contrastive Explanation GenerationモデルであるCPACEを提案する。
CPACEは、得られたシンボル知識を、与えられた候補間の差異をよりよく区別するために、対照的な説明に変換する。
本稿では,CSQA,QASC,OBQAの3つの質問回答データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-14T12:12:24Z) - Rainier: Reinforced Knowledge Introspector for Commonsense Question
Answering [74.90418840431425]
そこで,Rainier(Reinforced Knowledge Introspector,Reinforced Knowledge Introspector,Reinforced Knowledge Introspector)を提案する。
我々のアプローチは、GPT-3で生成された知識を模倣することから始まり、強化学習を通して独自の知識を生み出すことを学ぶ。
本研究は,GPT-3より桁違いに小さいモデルで生成した知識が,GPT-3から抽出した知識の質を超えうることを報告した最初の事例である。
論文 参考訳(メタデータ) (2022-10-06T17:34:06Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Coarse-to-Careful: Seeking Semantic-related Knowledge for Open-domain
Commonsense Question Answering [12.406729445165857]
背景コモンセンスを必要とする質問に機械が答えるのを助けるために、外部知識を利用するのが一般的である。
本稿では,知識注入を粗大から粗大に制御する意味駆動型知識認識型QAフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T10:56:36Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。