論文の概要: VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization
- arxiv url: http://arxiv.org/abs/2311.00807v1
- Date: Wed, 1 Nov 2023 19:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:56:47.644156
- Title: VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization
- Title(参考訳): VQA-GEN: ドメインの一般化のためのベンチマークを問うビジュアル質問
- Authors: Suraj Jyothi Unni, Raha Moraffah, Huan Liu
- Abstract要約: 視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 15.554325659263316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) models are designed to demonstrate
visual-textual reasoning capabilities. However, their real-world applicability
is hindered by a lack of comprehensive benchmark datasets. Existing domain
generalization datasets for VQA exhibit a unilateral focus on textual shifts
while VQA being a multi-modal task contains shifts across both visual and
textual domains. We propose VQA-GEN, the first ever multi-modal benchmark
dataset for distribution shift generated through a shift induced pipeline.
Experiments demonstrate VQA-GEN dataset exposes the vulnerability of existing
methods to joint multi-modal distribution shifts. validating that comprehensive
multi-modal shifts are critical for robust VQA generalization. Models trained
on VQA-GEN exhibit improved cross-domain and in-domain performance, confirming
the value of VQA-GEN. Further, we analyze the importance of each shift
technique of our pipeline contributing to the generalization of the model.
- Abstract(参考訳): 視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
しかしながら、実際の適用性は、包括的なベンチマークデータセットの欠如によって妨げられている。
既存のVQA用のドメイン一般化データセットでは、テキストシフトに一方的な焦点が当てられているが、VQAはマルチモーダルタスクであり、ビジュアルドメインとテキストドメインの両方にわたるシフトを含んでいる。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
実験では、VQA-GENデータセットが、既存のメソッドの脆弱性を、共同マルチモーダル分散シフトに公開している。
包括的マルチモーダルシフトの検証は、堅牢なVQA一般化に不可欠である。
VQA-GENで訓練されたモデルでは、クロスドメインとインドメインのパフォーマンスが改善され、VQA-GENの価値が確認された。
さらに,モデルの一般化に寄与するパイプラインの各シフト手法の重要性を分析した。
関連論文リスト
- Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for
Visual Question Answering [9.110942712627356]
視覚言語モデル(VLM)は、様々なタスクにおいて顕著な進歩を見せている。
本稿では,Large Language Models (LLMs) に組み込んだ多言語協調フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Causal Reasoning through Two Layers of Cognition for Improving
Generalization in Visual Question Answering [28.071906755200043]
VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。
本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。
CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
論文 参考訳(メタデータ) (2023-10-09T05:07:58Z) - Interpretable by Design Visual Question Answering [64.66788198885182]
解釈可能なVQAモデルは、画像のどの部分から得られる結論を判断できるべきだ、と我々は主張する。
ここでは、VQA問題に対する明示的な中間的動的推論構造を設計する。
InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal
Grounding [7.995360025953931]
視覚的質問応答(VQA)は、入力画像に関する自然言語の質問に応答するマルチモーダルタスクである。
我々は、VQAモデルのクロスデータセット適応能力を体系的に評価するのに役立つOODシフトの自動生成を容易にするVQGモジュールに取り組んでいる。
論文 参考訳(メタデータ) (2022-01-24T12:42:30Z) - Domain-robust VQA with diverse datasets and methods but no target labels [34.331228652254566]
VQAのドメイン適応は、さらなる複雑さのためにオブジェクト認識の適応とは異なる。
これらの課題に取り組むために、まず一般的なVQAデータセット間のドメインシフトを定量化します。
また,画像領域と質問領域の合成シフトを別々に構築する。
論文 参考訳(メタデータ) (2021-03-29T22:24:50Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。