論文の概要: MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering
- arxiv url: http://arxiv.org/abs/2508.07023v1
- Date: Sat, 09 Aug 2025 15:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.660436
- Title: MV-CoRe: Multimodal Visual-Conceptual Reasoning for Complex Visual Question Answering
- Title(参考訳): MV-CoRe:複合視覚質問応答のためのマルチモーダル視覚概念推論
- Authors: Jingwei Peng, Jiehao Chen, Mateo Alejandro Rojas, Meilin Zhang,
- Abstract要約: MV-CoReは、多様な視覚情報と言語情報の深い融合を通して、複雑なVQA性能を向上させるために設計された新しいモデルである。
MV-CoReは、事前訓練された視覚大モデル(VLM)と言語大モデル(LLM)からのグローバルな埋め込みを慎重に統合する
革新的なMultimodal Fusion Transformerは、これらの多様な特徴集合を処理し、深く統合し、リッチなクロスモーダルな注意と複雑な推論を可能にします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex Visual Question Answering (Complex VQA) tasks, which demand sophisticated multi-modal reasoning and external knowledge integration, present significant challenges for existing large vision-language models (LVLMs) often limited by their reliance on high-level global features. To address this, we propose MV-CoRe (Multimodal Visual-Conceptual Reasoning), a novel model designed to enhance Complex VQA performance through the deep fusion of diverse visual and linguistic information. MV-CoRe meticulously integrates global embeddings from pre-trained Vision Large Models (VLMs) and Language Large Models (LLMs) with fine-grained semantic-aware visual features, including object detection characteristics and scene graph representations. An innovative Multimodal Fusion Transformer then processes and deeply integrates these diverse feature sets, enabling rich cross-modal attention and facilitating complex reasoning. We evaluate MV-CoRe on challenging Complex VQA benchmarks, including GQA, A-OKVQA, and OKVQA, after training on VQAv2. Our experimental results demonstrate that MV-CoRe consistently outperforms established LVLM baselines, achieving an overall accuracy of 77.5% on GQA. Ablation studies confirm the critical contribution of both object and scene graph features, and human evaluations further validate MV-CoRe's superior factual correctness and reasoning depth, underscoring its robust capabilities for deep visual and conceptual understanding.
- Abstract(参考訳): 複雑な視覚質問応答(複雑なVQA)タスクは、高度なマルチモーダル推論と外部知識の統合を必要とするが、高レベルなグローバルな機能に依存しているため、既存の大規模視覚言語モデル(LVLM)に対する重大な課題をしばしば提示する。
そこで本稿では,多様な視覚情報と言語情報を深く融合した複雑なVQAの性能向上を目的とした,MV-CoRe(Multimodal Visual-Conceptual Reasoning)を提案する。
MV-CoReは、事前訓練された視覚大モデル(VLM)と言語大モデル(LLM)からのグローバルな埋め込みを、オブジェクト検出特性やシーングラフ表現を含む細粒度のセマンティックアウェアな視覚的特徴とうまく統合する。
革新的なMultimodal Fusion Transformerは、これらの多様な機能セットを処理し、深く統合し、リッチなクロスモーダルな注意と複雑な推論を可能にします。
我々は、VQAv2のトレーニング後、GQA、A-OKVQA、OKVQAを含む複雑なVQAベンチマークのMV-CoReを評価する。
実験の結果,MV-CoReは確立したLVLMベースラインより一貫して優れており,GQAの総合精度は77.5%であることがわかった。
アブレーション研究は、オブジェクトグラフとシーングラフの両方の特徴の重要な貢献を確認し、人間による評価は、MV-CoReの優れた事実的正しさと推論深度を更に検証し、深い視覚的および概念的理解のための頑健な能力を強調している。
関連論文リスト
- Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models [26.14137626882127]
大規模マルチモーダルモデル(LMM)は、視覚言語と視覚中心のタスクの両方において、目覚しい視覚的理解性能を示す。
本稿では,LMMが複雑な構成問題を解くための統一的な視覚推論機構を提案する。
トレーニングされたモデルであるGriffon-Rには、エンドツーエンドの自動理解、自己思考、推論の回答能力があります。
論文 参考訳(メタデータ) (2025-05-27T05:50:25Z) - Enabling Collaborative Parametric Knowledge Calibration for Retrieval-Augmented Vision Question Answering [16.14877145354785]
KB-VQA (Vision Question Answering) システムは、外部知識ベースから取得した知識を用いて複雑な視覚的な質問に対処する。
協調的なパラメトリック知識キャリブレーションを用いた検索強化VQAフレームワークを提案する。
提案手法は,最先端モデルと競合する性能を実現し,精度が4.7%向上した。
論文 参考訳(メタデータ) (2025-04-05T05:42:12Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-13T05:35:09Z) - Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion [6.9879884952138065]
Rank VQAモデルは、Faster R-CNNモデルと、事前訓練されたBERTモデルから得られたリッチセマンティックテキスト特徴を用いて抽出された高品質な視覚特徴を統合する。
回答の相対ランク付けを最適化するためにランキング学習モジュールが組み込まれ、回答精度が向上する。
我々のモデルは、標準VQAデータセットにおける既存の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-14T05:18:43Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。