論文の概要: Multi-Sourced Compositional Generalization in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2505.23045v1
- Date: Thu, 29 May 2025 03:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.657419
- Title: Multi-Sourced Compositional Generalization in Visual Question Answering
- Title(参考訳): 視覚質問応答における多音源合成一般化
- Authors: Chuanhao Li, Wenbo Ye, Zhen Li, Yuwei Wu, Yunde Jia,
- Abstract要約: 本稿では,視覚的質問応答(VQA)モデルのMSCG能力を高めるための学習フレームワークを提案する。
我々はGQAデータセットに基づく新しいGQA-MSCGデータセットを構築し、サンプルには異なるモーダルのプリミティブからなる3種類の新規合成が含まれている。
- 参考スコア(独自算出の注目度): 31.47252795543269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional generalization is the ability of generalizing novel compositions from seen primitives, and has received much attention in vision-and-language (V\&L) recently. Due to the multi-modal nature of V\&L tasks, the primitives composing compositions source from different modalities, resulting in multi-sourced novel compositions. However, the generalization ability over multi-sourced novel compositions, \textit{i.e.}, multi-sourced compositional generalization (MSCG) remains unexplored. In this paper, we explore MSCG in the context of visual question answering (VQA), and propose a retrieval-augmented training framework to enhance the MSCG ability of VQA models by learning unified representations for primitives from different modalities. Specifically, semantically equivalent primitives are retrieved for each primitive in the training samples, and the retrieved features are aggregated with the original primitive to refine the model. This process helps the model learn consistent representations for the same semantic primitives across different modalities. To evaluate the MSCG ability of VQA models, we construct a new GQA-MSCG dataset based on the GQA dataset, in which samples include three types of novel compositions composed of primitives from different modalities. Experimental results demonstrate the effectiveness of the proposed framework. We release GQA-MSCG at https://github.com/NeverMoreLCH/MSCG.
- Abstract(参考訳): 作曲の一般化は、目に見えるプリミティブから新しい作曲を一般化する能力であり、近年ヴィジュアル・アンド・ランゲージ(V\&L)に多くの注目を集めている。
V\&Lタスクのマルチモーダル性のため、異なるモーダル性から構成を構成するプリミティブが生成され、結果として複数ソースの新規な構成が生み出される。
しかし、多ソースな新規合成である『textit{i.e.}, Multi-sourced compositional generalization (MSCG) 』に対する一般化能力は未解明のままである。
本稿では,視覚的質問応答(VQA)の文脈でMSCGを探索し,異なるモダリティからプリミティブの統一表現を学習することにより,VQAモデルのMSCG能力を高めるための検索強化トレーニングフレームワークを提案する。
具体的には、トレーニングサンプルの各プリミティブに対して意味的に等価なプリミティブを検索し、抽出された特徴を元のプリミティブに集約してモデルを洗練する。
このプロセスは、モデルが異なるモジュール間で同じセマンティックプリミティブに対して一貫した表現を学ぶのに役立つ。
VQAモデルのMSCG能力を評価するため、GQAデータセットに基づく新しいGQA-MSCGデータセットを構築し、サンプルは異なるモードのプリミティブで構成された3種類の新規合成を含む。
実験の結果,提案手法の有効性が示された。
我々はGQA-MSCGをhttps://github.com/NeverMoreLCH/MSCGでリリースする。
関連論文リスト
- Consistency of Compositional Generalization across Multiple Levels [31.77432446850103]
複数のレベルにまたがる一貫した構成一般化を実現するためのメタラーニングベースのフレームワークを提案する。
一貫性を定量的に評価するGQA-CCGデータセットを構築した。
論文 参考訳(メタデータ) (2024-12-18T09:09:41Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - A Simple Recipe for Language-guided Domain Generalized Segmentation [45.93202559299953]
トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の課題のひとつだ。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
筆者らのレシピは, (i) 極小調整による内在的CLIPロバスト性の保存, (ii) 言語駆動型ローカルスタイル拡張, (iii) 訓練中のソースと拡張スタイルを局所的に混合したランダム化という3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。