論文の概要: FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2505.21755v1
- Date: Tue, 27 May 2025 20:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.290441
- Title: FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering
- Title(参考訳): FRAMES-VQA:視覚質問応答における多モードシフト間の微調整ロバストネスのベンチマーク
- Authors: Chengyue Huang, Brisa Maneechotesuwan, Shivang Chopra, Zsolt Kira,
- Abstract要約: VQAタスクの堅牢な微調整を評価するために,新しいベンチマークFRAMES-VQA(Fine-Tuning Robustness across Multi-Modal Shifts in VQA)を提案する。
VQAv2、IV-VQA、VQA-CP、OK-VQAなど、既存のVQAベンチマークを10種類使用し、それをID、近距離OODデータセットに分類する。
- 参考スコア(独自算出の注目度): 21.142461103887857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) systems face significant challenges when adapting to real-world data shifts, especially in multi-modal contexts. While robust fine-tuning strategies are essential for maintaining performance across in-distribution (ID) and out-of-distribution (OOD) scenarios, current evaluation settings are primarily unimodal or particular to some types of OOD, offering limited insight into the complexities of multi-modal contexts. In this work, we propose a new benchmark FRAMES-VQA (Fine-Tuning Robustness across Multi-Modal Shifts in VQA) for evaluating robust fine-tuning for VQA tasks. We utilize ten existing VQA benchmarks, including VQAv2, IV-VQA, VQA-CP, OK-VQA and others, and categorize them into ID, near and far OOD datasets covering uni-modal, multi-modal and adversarial distribution shifts. We first conduct a comprehensive comparison of existing robust fine-tuning methods. We then quantify the distribution shifts by calculating the Mahalanobis distance using uni-modal and multi-modal embeddings extracted from various models. Further, we perform an extensive analysis to explore the interactions between uni- and multi-modal shifts as well as modality importance for ID and OOD samples. These analyses offer valuable guidance on developing more robust fine-tuning methods to handle multi-modal distribution shifts. The code is available at https://github.com/chengyuehuang511/FRAMES-VQA .
- Abstract(参考訳): 視覚的質問応答(VQA)システムは、特にマルチモーダルコンテキストにおいて、実世界のデータシフトに適応する際に大きな課題に直面します。
分散内(ID)と分散外(OOD)のシナリオでパフォーマンスを維持するためには、堅牢な微調整戦略が不可欠だが、現在の評価設定は、主に、特定の種類のOODに対して、マルチモーダルコンテキストの複雑さに関する限られた洞察を提供する。
本稿では,VQAタスクの堅牢な微調整を評価するために,FRAMES-VQA(Fine-Tuning Robustness across Multi-Modal Shifts in VQA)を提案する。
VQAv2,IV-VQA,VQA-CP,OK-VQAなど,既存のVQAベンチマークを10種類使用し,一様・多モード・逆分散シフトを含むID,近距離OODデータセットに分類した。
まず、既存の頑健な微調整法を総合的に比較する。
次に,各モデルから抽出したユニモーダルおよびマルチモーダル埋め込みを用いて,マハラノビス距離を計算することで分布シフトの定量化を行う。
さらに,一様モードと多モードシフトの相互作用と,IDおよびOODサンプルのモダリティの重要性について検討する。
これらの分析は、マルチモーダル分布シフトを扱うためのより堅牢な微調整法を開発するための貴重なガイダンスを提供する。
コードはhttps://github.com/chengyuehuang511/FRAMES-VQAで公開されている。
関連論文リスト
- Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。
VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。
2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-11T05:51:44Z) - Multi-QuAD: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification [57.08108545219043]
既存の信頼性の高いマルチモーダル分類手法では、データ品質のロバストな推定ができない。
textitMulti-level Quality-Adaptive Dynamic multimodal network (Multi-QuAD) と呼ばれる信頼性の高い分類のための新しいフレームワークを提案する。
4つのデータセットで行った実験により、Multi-QuADは分類性能と信頼性において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-19T03:26:51Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization [15.554325659263316]
視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-11-01T19:43:56Z) - Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual
Reasoning [34.6700781893352]
VQAドメインシフトの異なる要因を分離可能な仮想ベンチマークであるSuper-CLEVRを導入する。
視覚的複雑性、質問冗長性、概念分布、概念構成性という4つの要因が考慮されている。
制御されたデータを用いて,テストデータがトレーニングデータと異なる状況下で,Super-CLEVRによりVQAメソッドをテストすることができる。
論文 参考訳(メタデータ) (2022-12-01T03:53:24Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。