論文の概要: VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization
- arxiv url: http://arxiv.org/abs/2311.00807v1
- Date: Wed, 1 Nov 2023 19:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:56:47.644156
- Title: VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization
- Title(参考訳): VQA-GEN: ドメインの一般化のためのベンチマークを問うビジュアル質問
- Authors: Suraj Jyothi Unni, Raha Moraffah, Huan Liu
- Abstract要約: 視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 15.554325659263316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) models are designed to demonstrate
visual-textual reasoning capabilities. However, their real-world applicability
is hindered by a lack of comprehensive benchmark datasets. Existing domain
generalization datasets for VQA exhibit a unilateral focus on textual shifts
while VQA being a multi-modal task contains shifts across both visual and
textual domains. We propose VQA-GEN, the first ever multi-modal benchmark
dataset for distribution shift generated through a shift induced pipeline.
Experiments demonstrate VQA-GEN dataset exposes the vulnerability of existing
methods to joint multi-modal distribution shifts. validating that comprehensive
multi-modal shifts are critical for robust VQA generalization. Models trained
on VQA-GEN exhibit improved cross-domain and in-domain performance, confirming
the value of VQA-GEN. Further, we analyze the importance of each shift
technique of our pipeline contributing to the generalization of the model.
- Abstract(参考訳): 視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
しかしながら、実際の適用性は、包括的なベンチマークデータセットの欠如によって妨げられている。
既存のVQA用のドメイン一般化データセットでは、テキストシフトに一方的な焦点が当てられているが、VQAはマルチモーダルタスクであり、ビジュアルドメインとテキストドメインの両方にわたるシフトを含んでいる。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
実験では、VQA-GENデータセットが、既存のメソッドの脆弱性を、共同マルチモーダル分散シフトに公開している。
包括的マルチモーダルシフトの検証は、堅牢なVQA一般化に不可欠である。
VQA-GENで訓練されたモデルでは、クロスドメインとインドメインのパフォーマンスが改善され、VQA-GENの価値が確認された。
さらに,モデルの一般化に寄与するパイプラインの各シフト手法の重要性を分析した。
関連論文リスト
- VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach [2.744781070632757]
確立されたVQAフレームワーク内の局所的なテキスト機能に焦点をあてた、長距離依存を利用したモデルと、よりシンプルなモデルの比較を行う。
本稿では,畳み込み層を組み込んだモデルであるConvGRUを提案する。
VQA-v2データセットでテストされたConvGRUでは、NumberやCountといった質問タイプに対するベースラインよりも、わずかながら一貫性のある改善が示されている。
論文 参考訳(メタデータ) (2024-05-01T12:39:35Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Causal Reasoning through Two Layers of Cognition for Improving
Generalization in Visual Question Answering [28.071906755200043]
VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。
本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。
CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
論文 参考訳(メタデータ) (2023-10-09T05:07:58Z) - Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal
Grounding [7.995360025953931]
視覚的質問応答(VQA)は、入力画像に関する自然言語の質問に応答するマルチモーダルタスクである。
我々は、VQAモデルのクロスデータセット適応能力を体系的に評価するのに役立つOODシフトの自動生成を容易にするVQGモジュールに取り組んでいる。
論文 参考訳(メタデータ) (2022-01-24T12:42:30Z) - Domain-robust VQA with diverse datasets and methods but no target labels [34.331228652254566]
VQAのドメイン適応は、さらなる複雑さのためにオブジェクト認識の適応とは異なる。
これらの課題に取り組むために、まず一般的なVQAデータセット間のドメインシフトを定量化します。
また,画像領域と質問領域の合成シフトを別々に構築する。
論文 参考訳(メタデータ) (2021-03-29T22:24:50Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。