論文の概要: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
- arxiv url: http://arxiv.org/abs/2510.08936v1
- Date: Fri, 10 Oct 2025 02:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.019093
- Title: RO-Bench: Large-scale robustness evaluation of MLLMs with text-driven counterfactual videos
- Title(参考訳): RO-Bench:テキスト駆動対実ビデオによるMLLMの大規模ロバスト性評価
- Authors: Zixi Yang, Jiapeng Li, Muxi Diao, Yinuo Jing, Kongming Liang,
- Abstract要約: 本稿では,ORD(Dynamic Out-of-distribution)対応ビデオテストセット上でMLLMを評価するための最初のベンチマークであるRo-Benchを紹介する。
近年のビデオMLLMを8種類評価し,ロベンチに反現実的映像コンテンツに曝露した場合に,現行のモデルが顕著な性能劣化を示すことを示した。
我々は, 反ファクトデータを用いた微調整MLLMがロベンチの性能を21.73%向上し, MVBenchデータセットの20タスクに対して12.78%改善したことを示す。
- 参考スコア(独自算出の注目度): 15.709853041618343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Multi-modal Large Language Models (MLLMs) have demonstrated significant performance across various video understanding tasks. However, their robustness, particularly when faced with manipulated video content, remains largely unexplored. In this paper, we introduce Ro-Bench, the first benchmark for evaluating MLLMs on dynamic out-of-distribution (OOD) counterfactual video test sets. Ro-Bench incorporates high-quality, diverse and temporally relevant video data, by editing Style, Object, Background and their compositions. We evaluated eight recent video MLLMs and found that current models exhibit substantial performance degradation on Ro-Bench when exposed to counterfactual video content. Furthermore, we demonstrate that fine-tuning MLLMs with counterfactual data enhances robustness, achieving a 21.73% performance increase on Ro-Bench and a 12.78% improvement across 20 tasks in the MVBench dataset. These findings underscore the effectiveness of counterfactual data in enhancing the video understanding ability of MLLMs. The code and data will be released shortly.
- Abstract(参考訳): 近年、MLLM(Multi-modal Large Language Models)は、様々なビデオ理解タスクにおいて大きなパフォーマンスを示している。
しかし、その堅牢性、特に操作されたビデオコンテンツに直面する場合、ほとんど解明されていない。
本稿では,動的アウト・オブ・ディストリビューション(OOD)対応ビデオテストセット上でMLLMを評価する最初のベンチマークであるRo-Benchを紹介する。
Ro-Benchは、スタイル、オブジェクト、背景、およびそれらの構成を編集することで、高品質で多様性があり、時間的に関係のあるビデオデータを組み込んでいる。
近年のビデオMLLMを8種類評価し,ロベンチに反現実的映像コンテンツに曝露した場合に,現行のモデルが顕著な性能劣化を示すことを示した。
さらに,反ファクトデータを用いた微調整MLLMではロベンチの性能が21.73%向上し,MVBenchデータセットの20タスクで12.78%向上することが実証された。
これらの知見は,MLLMの映像理解能力向上における反ファクトデータの有効性を裏付けるものである。
コードとデータはまもなくリリースされる。
関連論文リスト
- MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios [66.59827827146262]
我々は,ビデオOCRアプリケーションシナリオを包括的に含むMME-VideoOCRベンチマークを紹介する。
ベンチマークは、解像度、アスペクト比、持続時間が異なる1,464本のビデオと、2000本の細心の注意を払って、手動で注釈付けされた質問回答ペアで構成されている。
MME-VideoOCRを用いて18種類のMLLMを評価し,最高の性能モデル(Gemini-2.5 Pro)でさえ73.7%の精度で達成できることを示した。
論文 参考訳(メタデータ) (2025-05-27T15:27:46Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [120.67048724315619]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。