論文の概要: CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.09266v1
- Date: Fri, 10 Oct 2025 11:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.790194
- Title: CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation
- Title(参考訳): CFVBench: きめ細かいマルチモーダル検索拡張生成のための総合的ビデオベンチマーク
- Authors: Kaiwen Wei, Xiao Liu, Jie Zhang, Zijian Wang, Ruida Liu, Yuming Yang, Xin Xiao, Xiao Sun, Haoyang Zeng, Changzai Pan, Yidan Zhang, Jiang Zhong, Peijin Wang, Yingchao Feng,
- Abstract要約: MRAG(Multimodal Retrieval-Augmented Generation)により、MLLM(Large Language Models)は、外部のマルチモーダルエビデンスによる応答を生成することができる。
既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に制限されている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークである。
- 参考スコア(独自算出の注目度): 29.58444236508143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Retrieval-Augmented Generation (MRAG) enables Multimodal Large Language Models (MLLMs) to generate responses with external multimodal evidence, and numerous video-based MRAG benchmarks have been proposed to evaluate model capabilities across retrieval and generation stages. However, existing benchmarks remain limited in modality coverage and format diversity, often focusing on single- or limited-modality tasks, or coarse-grained scene understanding. To address these gaps, we introduce CFVBench, a large-scale, manually verified benchmark constructed from 599 publicly available videos, yielding 5,360 open-ended QA pairs. CFVBench spans high-density formats and domains such as chart-heavy reports, news broadcasts, and software tutorials, requiring models to retrieve and reason over long temporal video spans while maintaining fine-grained multimodal information. Using CFVBench, we systematically evaluate 7 retrieval methods and 14 widely-used MLLMs, revealing a critical bottleneck: current models (even GPT5 or Gemini) struggle to capture transient yet essential fine-grained multimodal details. To mitigate this, we propose Adaptive Visual Refinement (AVR), a simple yet effective framework that adaptively increases frame sampling density and selectively invokes external tools when necessary. Experiments show that AVR consistently enhances fine-grained multimodal comprehension and improves performance across all evaluated MLLMs
- Abstract(参考訳): MRAG(Multimodal Retrieval-Augmented Generation)により,MLLM(Multimodal Large Language Models)は外部のマルチモーダルエビデンスによる応答を生成できる。
しかし、既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に限られており、しばしば単一または限定されたモダリティタスク、または粗い粒度のシーン理解に焦点を当てている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークで、5360のオープンエンドQAペアが生成される。
CFVBenchは、高密度のフォーマットと、チャートを多用したレポート、ニュース放送、ソフトウェアチュートリアルなどのドメインにまたがり、モデルが細かなマルチモーダル情報を維持しながら、長時間の時間的ビデオスパンを検索し、推論することを要求する。
CFVBenchを用いて、7つの検索手法と14の広く使用されているMLLMを体系的に評価し、重要なボトルネックを明らかにした。
これを軽減するために、フレームサンプリング密度を適応的に増加させ、必要に応じて外部ツールを選択的に呼び出す、シンプルで効果的なフレームワークであるAdaptive Visual Refinement (AVR)を提案する。
実験により,AVRは細粒度マルチモーダル理解を一貫して向上し,評価MLLM全体の性能向上を図っている。
関連論文リスト
- AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation [19.745059794932807]
本稿では,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを紹介する。
我々は,コーパス内のマルチモーダルデータを完全に活用して,テキストと画像を組み合わせたマルチモーダルな回答を生成することを目指している。
厳密な評価を容易にするため、MRAMG-Benchは統計およびLLMベースのメトリクスの総合的なスイートを組み込んでいる。
論文 参考訳(メタデータ) (2025-02-06T16:07:24Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。