Fugu-MT 論文翻訳(概要): VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization

論文の概要: VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization

arxiv url: http://arxiv.org/abs/2311.00807v1
Date: Wed, 1 Nov 2023 19:43:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 15:56:47.644156
Title: VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization
Title（参考訳）: VQA-GEN: ドメインの一般化のためのベンチマークを問うビジュアル質問
Authors: Suraj Jyothi Unni, Raha Moraffah, Huan Liu
Abstract要約: 視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。 VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
参考スコア（独自算出の注目度）: 15.554325659263316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual question answering (VQA) models are designed to demonstrate visual-textual reasoning capabilities. However, their real-world applicability is hindered by a lack of comprehensive benchmark datasets. Existing domain generalization datasets for VQA exhibit a unilateral focus on textual shifts while VQA being a multi-modal task contains shifts across both visual and textual domains. We propose VQA-GEN, the first ever multi-modal benchmark dataset for distribution shift generated through a shift induced pipeline. Experiments demonstrate VQA-GEN dataset exposes the vulnerability of existing methods to joint multi-modal distribution shifts. validating that comprehensive multi-modal shifts are critical for robust VQA generalization. Models trained on VQA-GEN exhibit improved cross-domain and in-domain performance, confirming the value of VQA-GEN. Further, we analyze the importance of each shift technique of our pipeline contributing to the generalization of the model.
Abstract（参考訳）: 視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。しかしながら、実際の適用性は、包括的なベンチマークデータセットの欠如によって妨げられている。既存のVQA用のドメイン一般化データセットでは、テキストシフトに一方的な焦点が当てられているが、VQAはマルチモーダルタスクであり、ビジュアルドメインとテキストドメインの両方にわたるシフトを含んでいる。 VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。実験では、VQA-GENデータセットが、既存のメソッドの脆弱性を、共同マルチモーダル分散シフトに公開している。包括的マルチモーダルシフトの検証は、堅牢なVQA一般化に不可欠である。 VQA-GENで訓練されたモデルでは、クロスドメインとインドメインのパフォーマンスが改善され、VQA-GENの価値が確認された。さらに,モデルの一般化に寄与するパイプラインの各シフト手法の重要性を分析した。

関連論文リスト

FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering [21.142461103887857]
VQAタスクの堅牢な微調整を評価するために,新しいベンチマークFRAMES-VQA(Fine-Tuning Robustness across Multi-Modal Shifts in VQA)を提案する。 VQAv2、IV-VQA、VQA-CP、OK-VQAなど、既存のVQAベンチマークを10種類使用し、それをID、近距離OODデータセットに分類する。
論文参考訳（メタデータ） (2025-05-27T20:44:44Z)
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。 VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。 2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文参考訳（メタデータ） (2025-04-11T05:51:44Z)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳（メタデータ） (2024-12-14T06:24:55Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach [2.744781070632757]
確立されたVQAフレームワーク内の局所的なテキスト機能に焦点をあてた、長距離依存を利用したモデルと、よりシンプルなモデルの比較を行う。本稿では,畳み込み層を組み込んだモデルであるConvGRUを提案する。 VQA-v2データセットでテストされたConvGRUでは、NumberやCountといった質問タイプに対するベースラインよりも、わずかながら一貫性のある改善が示されている。
論文参考訳（メタデータ） (2024-05-01T12:39:35Z)
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文参考訳（メタデータ） (2024-03-18T03:17:08Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Causal Reasoning through Two Layers of Cognition for Improving Generalization in Visual Question Answering [28.071906755200043]
VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。 CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
論文参考訳（メタデータ） (2023-10-09T05:07:58Z)
Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal Grounding [7.995360025953931]
視覚的質問応答(VQA)は、入力画像に関する自然言語の質問に応答するマルチモーダルタスクである。我々は、VQAモデルのクロスデータセット適応能力を体系的に評価するのに役立つOODシフトの自動生成を容易にするVQGモジュールに取り組んでいる。
論文参考訳（メタデータ） (2022-01-24T12:42:30Z)
Domain-robust VQA with diverse datasets and methods but no target labels [34.331228652254566]
VQAのドメイン適応は、さらなる複雑さのためにオブジェクト認識の適応とは異なる。これらの課題に取り組むために、まず一般的なVQAデータセット間のドメインシフトを定量化します。また,画像領域と質問領域の合成シフトを別々に構築する。
論文参考訳（メタデータ） (2021-03-29T22:24:50Z)
Learning from Lexical Perturbations for Consistent Visual Question Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。 VQA Perturbed Pairings (VQA P2) も提案する。
論文参考訳（メタデータ） (2020-11-26T17:38:03Z)
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。 MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文参考訳（メタデータ） (2020-09-18T00:22:54Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。 VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文参考訳（メタデータ） (2020-01-20T11:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。