Fugu-MT 論文翻訳(概要): M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

論文の概要: M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

arxiv url: http://arxiv.org/abs/2604.25122v1
Date: Tue, 28 Apr 2026 01:57:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.655555
Title: M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering
Title（参考訳）: M$^3$-VQA:マルチモーダル、マルチエンティティ、マルチホップビジュアル質問応答のためのベンチマーク
Authors: Jiatong Ma, Longteng Guo, Yuchen Liu, Zijia Zhao, Dongze Hao, Xuanxu Lin, Jing Liu,
Abstract要約: M$3$-VQA は知識に基づく Visual Question Answering (VQA) ベンチマークである。視覚的およびテキスト的ソースから複数の異なるエンティティを含む多様な多義性質問を導入する。複数のドキュメントにわたるシーケンシャルなマルチホップ推論と並列なマルチホップ推論の両方を実行するモデルが必要です。
参考スコア（独自算出の注目度）: 16.14696376349009
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present M$^3$-VQA, a novel knowledge-based Visual Question Answering (VQA) benchmark, to enhance the evaluation of multimodal large language models (MLLMs) in fine-grained multimodal entity understanding and complex multi-hop reasoning. Unlike existing VQA datasets that focus on coarse-grained categories and simple reasoning over single entities, M$^3$-VQA introduces diverse multi-entity questions involving multiple distinct entities from both visual and textual sources. It requires models to perform both sequential and parallel multi-hop reasoning across multiple documents, supported by traceable, detailed evidence and a curated multimodal knowledge base. We evaluate 16 leading MLLMs under three settings: without external knowledge, with gold evidence, and with retrieval-augmented input. The poor results reveal significant challenges for MLLMs in knowledge acquisition and reasoning. Models perform poorly without external information but improve markedly when provided with precise evidence. Furthermore, reasoning-aware agentic retrieval surpasses heuristic methods, highlighting the importance of structured reasoning for complex multimodal understanding. M$^3$-VQA presents a more challenging evaluation for advancing the multimodal reasoning capabilities of MLLMs. Our code and dataset are available at https://github.com/CASIA-IVA-Lab/M3VQA.
Abstract（参考訳）: 本稿では,M$^3$-VQAという,知識に基づく視覚質問回答(VQA)ベンチマークを提案し,マルチモーダル大規模言語モデル(MLLM)の評価を,微細なマルチモーダルエンティティ理解と複雑なマルチホップ推論において強化する。粗いカテゴリと単一のエンティティに対する単純な推論に焦点を当てた既存のVQAデータセットとは異なり、M$^3$-VQAは視覚的およびテキスト的ソースから複数の異なるエンティティを含む多様な多義性質問を導入する。複数の文書にわたるシーケンシャルなマルチホップ推論と並列なマルチホップ推論の両方を実行するモデルが必要であり、トレーサブルで詳細なエビデンスと、キュレートされたマルチモーダルな知識ベースによって支えられている。我々は,外部知識のないMLLMとゴールドエビデンス,検索強化入力の3つの設定で16の先行MLLMを評価した。その結果,知識獲得と推論におけるMLLMの課題が明らかとなった。モデルは外部情報なしではうまく動作しないが、正確な証拠を提供すると顕著に改善される。さらに、推論を意識したエージェント検索はヒューリスティックな手法を超越し、複雑なマルチモーダル理解のための構造化推論の重要性を強調している。 M$^3$-VQAは、MLLMのマルチモーダル推論能力を向上するためのより難しい評価を示す。私たちのコードとデータセットはhttps://github.com/CASIA-IVA-Lab/M3VQA.comで公開されています。

関連論文リスト

M$^3$KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation [20.170643730917963]
M$3$KG-RAGはマルチホップマルチモーダル知識グラフ強化RAGである。 MMKGからクエリアラインな音声視覚知識を検索する。推論の深さを改善し、MLLMの忠実さに答える。
論文参考訳（メタデータ） (2025-12-23T07:54:03Z)
Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-05-27T07:23:38Z)
Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。 MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文参考訳（メタデータ） (2025-05-22T09:52:57Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。 MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文参考訳（メタデータ） (2024-06-13T13:51:59Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。 MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文参考訳（メタデータ） (2024-04-24T17:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。