論文の概要: Can Open Domain Question Answering Systems Answer Visual Knowledge
Questions?
- arxiv url: http://arxiv.org/abs/2202.04306v1
- Date: Wed, 9 Feb 2022 06:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 22:47:37.364219
- Title: Can Open Domain Question Answering Systems Answer Visual Knowledge
Questions?
- Title(参考訳): オープンドメイン問合せシステムは視覚的知識問合せに答えられるか?
- Authors: Jiawen Zhang, Abhijit Mishra, Avinesh P.V.S, Siddharth Patwardhan and
Sachin Agarwal
- Abstract要約: 画像中のエンティティを参照するdeictic参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直すことができる。
これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。
本稿では, (a) 画像解析, (b) 質問の書き直し, (c) テキストによる質問応答に既存のシステムを再利用して, 視覚的な質問に答える潜在的データ効率のアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.442099405543527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of Outside Knowledge Visual Question Answering (OKVQA) requires an
automatic system to answer natural language questions about pictures and images
using external knowledge. We observe that many visual questions, which contain
deictic referential phrases referring to entities in the image, can be
rewritten as "non-grounded" questions and can be answered by existing
text-based question answering systems. This allows for the reuse of existing
text-based Open Domain Question Answering (QA) Systems for visual question
answering. In this work, we propose a potentially data-efficient approach that
reuses existing systems for (a) image analysis, (b) question rewriting, and (c)
text-based question answering to answer such visual questions. Given an image
and a question pertaining to that image (a visual question), we first extract
the entities present in the image using pre-trained object and scene
classifiers. Using these detected entities, the visual questions can be
rewritten so as to be answerable by open domain QA systems. We explore two
rewriting strategies: (1) an unsupervised method using BERT for masking and
rewriting, and (2) a weakly supervised approach that combines adaptive
rewriting and reinforcement learning techniques to use the implicit feedback
from the QA system. We test our strategies on the publicly available OKVQA
dataset and obtain a competitive performance with state-of-the-art models while
using only 10% of the training data.
- Abstract(参考訳): 外部知識ビジュアル質問回答(OKVQA)のタスクは、外部知識を用いて画像や画像に関する自然言語質問に答える自動システムを必要とする。
画像中のエンティティを参照する難解な参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直され、既存のテキストベースの質問応答システムによって答えられる。
これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。
本研究では,既存のシステムを再利用する潜在的データ効率のアプローチを提案する。
(a)画像解析
(b)質問の書き直し、及び
(c)このような視覚的質問に回答するテキストベースの質問。
その画像(視覚的質問)に関する画像と疑問が与えられた場合、事前に訓練されたオブジェクトとシーン分類器を用いて、まず画像に存在するエンティティを抽出する。
これらの検出されたエンティティを使用して、視覚的な質問をオープンドメインQAシステムで答えられるように書き換えることができる。
本研究では,(1)マスキングとリライトのためのBERTを用いた教師なし手法,(2)適応的リライトと強化学習技術を組み合わせてQAシステムからの暗黙的なフィードバックを利用する弱教師付き手法について検討する。
我々は、利用可能なOKVQAデータセットで戦略を検証し、トレーニングデータの10%しか使用せず、最先端のモデルとの競合性能を得る。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - CommVQA: Situating Visual Question Answering in Communicative Contexts [16.180130883242672]
画像、画像記述、実世界のコミュニケーションシナリオからなるデータセットであるCommVQAを紹介する。
CommVQAの解決には文脈情報へのアクセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:31:39Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Text-Aware Dual Routing Network for Visual Question Answering [11.015339851906287]
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
論文 参考訳(メタデータ) (2022-11-17T02:02:11Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。