論文の概要: Towards a Unified Model for Generating Answers and Explanations in
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2301.10799v1
- Date: Wed, 25 Jan 2023 19:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 15:15:13.646278
- Title: Towards a Unified Model for Generating Answers and Explanations in
Visual Question Answering
- Title(参考訳): 視覚的質問応答における回答と説明の統一モデルに向けて
- Authors: Chenxi Whitehouse, Tillman Weyde, Pranava Madhyastha
- Abstract要約: 我々は、QAモデルとは無関係なトレーニング説明モデルにより、説明の根拠が減り、性能が制限されると主張している。
本稿では,統一モデルに対するマルチタスク学習手法を提案する。
- 参考スコア(独自算出の注目度): 11.754328280233628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing explanations for visual question answering (VQA) has gained much
attention in research. However, most existing systems use separate models for
predicting answers and providing explanations. We argue that training
explanation models independently of the QA model makes the explanations less
grounded and limits performance. To address this, we propose a multitask
learning approach towards a Unified Model for more grounded and consistent
generation of both Answers and Explanations (UMAE). To achieve this, we add
artificial prompt tokens to training instances and finetune a multimodal
encoder-decoder model on various VQA tasks. In our experiments, UMAE models
surpass the prior SOTA answer accuracy on A-OKVQA by 10~15%, show competitive
results on OK-VQA, achieve new SOTA explanation scores on A-OKVQA and VCR, and
demonstrate promising out-of-domain performance on VQA-X.
- Abstract(参考訳): 視覚的質問応答 (VQA) の説明は研究で注目を集めている。
しかし、既存のシステムのほとんどは、答えの予測と説明のために別々のモデルを使っている。
我々は、QAモデルとは無関係なトレーニング説明モデルにより、説明の根拠が減り、性能が制限されると主張している。
そこで本稿では,Unified Model に対するマルチタスク学習手法を提案し,より基礎的で一貫した Answers and Explanations (UMAE) の生成を提案する。
これを実現するために,トレーニングインスタンスに人工的なプロンプトトークンを追加し,様々なVQAタスク上でマルチモーダルエンコーダデコーダモデルを微調整する。
実験では、UMAEモデルがA-OKVQAのSOTA応答精度を10~15%以上越え、OK-VQAの競合結果を示し、A-OKVQAとVCRの新しいSOTA説明スコアを達成し、VQA-Xのドメイン外性能を示す。
関連論文リスト
- Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering [2.98667511228225]
ReReは、事前訓練されたクリップビジョンエンコーダと事前訓練されたGPT-2言語モデルをデコーダとして使用するエンコーダ/デコーダアーキテクチャモデルである。
ReReは、VQA精度と説明スコアにおいて従来の手法よりも優れており、より説得力があり信頼性の高いNLEの改善を示している。
論文 参考訳(メタデータ) (2024-08-30T04:39:43Z) - Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion [6.9879884952138065]
Rank VQAモデルは、Faster R-CNNモデルと、事前訓練されたBERTモデルから得られたリッチセマンティックテキスト特徴を用いて抽出された高品質な視覚特徴を統合する。
回答の相対ランク付けを最適化するためにランキング学習モジュールが組み込まれ、回答精度が向上する。
我々のモデルは、標準VQAデータセットにおける既存の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-14T05:18:43Z) - Towards a performance analysis on pre-trained Visual Question Answering
models for autonomous driving [2.9552300389898094]
本稿では, ViLBERT, ViLT, LXMERT という3つの人気ビジュアル質問応答モデルについて予備解析を行った。
これらのモデルの性能は,コンピュータビジョンの専門家による参照回答と応答の類似性を比較して評価する。
論文 参考訳(メタデータ) (2023-07-18T15:11:40Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。