論文の概要: Beyond VQA: Generating Multi-word Answer and Rationale to Visual
Questions
- arxiv url: http://arxiv.org/abs/2010.12852v2
- Date: Thu, 17 Jun 2021 09:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:08:48.187039
- Title: Beyond VQA: Generating Multi-word Answer and Rationale to Visual
Questions
- Title(参考訳): VQAを超えて - 視覚的な質問に対するマルチワード回答と回答の生成
- Authors: Radhika Dua, Sai Srinivas Kancheti and Vineeth N Balasubramanian
- Abstract要約: ViQAR(Visual Question Answering and Reasoning)では、モデルが完全な回答と、生成した回答を正当化する根拠を生成する必要がある。
我々は,人間のチューリングテストと同様に質的,定量的な評価によって,モデルが強い答えと有理性を生成することを示す。
- 参考スコア(独自算出の注目度): 27.807568245576718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering is a multi-modal task that aims to measure
high-level visual understanding. Contemporary VQA models are restrictive in the
sense that answers are obtained via classification over a limited vocabulary
(in the case of open-ended VQA), or via classification over a set of
multiple-choice-type answers. In this work, we present a completely generative
formulation where a multi-word answer is generated for a visual query. To take
this a step forward, we introduce a new task: ViQAR (Visual Question Answering
and Reasoning), wherein a model must generate the complete answer and a
rationale that seeks to justify the generated answer. We propose an end-to-end
architecture to solve this task and describe how to evaluate it. We show that
our model generates strong answers and rationales through qualitative and
quantitative evaluation, as well as through a human Turing Test.
- Abstract(参考訳): Visual Question Answeringは、ハイレベルな視覚的理解を測定することを目的としたマルチモーダルタスクである。
現代のVQAモデルは、限定された語彙上の分類(開放されたVQAの場合)または複数の選択型の答えの集合に対する分類によって解が得られるという意味で制限的である。
本研究では,視覚的な問合せに対して,複数単語の回答を生成できる完全生成式を提案する。
ここでは、モデルが完全な答えと、生成された答えを正当化しようとする根拠を生成する必要がある。
我々は,この課題を解決するためのエンドツーエンドアーキテクチャを提案し,その評価方法について述べる。
本モデルでは, 質的, 定量的評価, および人間のチューリングテストにより, 強い回答と合理性が得られた。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Long-form Question Answering: An Iterative Planning-Retrieval-Generation
Approach [28.849548176802262]
長文質問応答(LFQA)は,段落の形で詳細な回答を生成するため,課題となる。
本稿では,反復計画,検索,生成を伴うLFQAモデルを提案する。
我々のモデルはLFQAタスクの様々なテキストおよび実測値の最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-15T21:22:27Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2023-08-18T07:45:10Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - Multi-Perspective Abstractive Answer Summarization [76.10437565615138]
コミュニティ質問応答フォーラムには、幅広い質問に対する回答の豊富なリソースが含まれている。
マルチパースペクティブな回答要約の目標は、答えのすべての観点を含む要約を作成することである。
本研究は,多視点抽象要約を自動生成する新しいデータセット作成手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T13:15:29Z) - Answer-checking in Context: A Multi-modal FullyAttention Network for
Visual Question Answering [8.582218033859087]
完全注意に基づく視覚質問応答アーキテクチャを提案する。
共同回答,質問,画像表現を統一的に注目するために,回答チェックモジュールを提案する。
VQA-v2.0テスト標準スプリットのパラメータを減らし,最先端の精度71.57%を実現した。
論文 参考訳(メタデータ) (2020-10-17T03:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。