論文の概要: IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2504.15415v1
- Date: Mon, 21 Apr 2025 19:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:34:02.90828
- Title: IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs
- Title(参考訳): IV-Bench:マルチモーダルLDMにおける映像認識と推論のためのベンチマーク
- Authors: David Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin,
- Abstract要約: IV-Benchは、Image-Grounded Video Perception and Reasoningを評価するための最初の包括的なベンチマークである。
IV-Benchは、13のタスクにわたる2,585の微妙な注釈付き画像テキストクエリと組み合わせた967のビデオで構成されている。
- 参考スコア(独自算出の注目度): 36.76252153495239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing evaluation frameworks for Multimodal Large Language Models (MLLMs) primarily focus on image reasoning or general video understanding tasks, largely overlooking the significant role of image context in video comprehension. To bridge this gap, we propose IV-Bench, the first comprehensive benchmark for evaluating Image-Grounded Video Perception and Reasoning. IV-Bench consists of 967 videos paired with 2,585 meticulously annotated image-text queries across 13 tasks (7 perception and 6 reasoning tasks) and 5 representative categories. Extensive evaluations of state-of-the-art open-source (e.g., InternVL2.5, Qwen2.5-VL) and closed-source (e.g., GPT-4o, Gemini2-Flash and Gemini2-Pro) MLLMs demonstrate that current models substantially underperform in image-grounded video Perception and Reasoning, merely achieving at most 28.9% accuracy. Further analysis reveals key factors influencing model performance on IV-Bench, including inference pattern, frame number, and resolution. Additionally, through a simple data synthesis approach, we demonstratethe challenges of IV- Bench extend beyond merely aligning the data format in the training proecss. These findings collectively provide valuable insights for future research. Our codes and data are released in https://github.com/multimodal-art-projection/IV-Bench.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の既存の評価フレームワークは、主に画像推論や一般的なビデオ理解タスクに焦点を当てており、主にビデオ理解における画像コンテキストの重要な役割を見越している。
このギャップを埋めるために、画像認識と推論を評価するための最初の総合的なベンチマークであるIV-Benchを提案する。
IV-Benchは、13のタスク(7つの知覚と6つの推論タスク)に2,585の微妙な注釈付き画像テキストクエリと5つの代表カテゴリをペアにした967のビデオで構成されている。
最先端のオープンソース(例: InternVL2.5、Qwen2.5-VL)とクローズドソース(例: GPT-4o、Gemini2-Flash、Gemini2-Pro) MLLMの広範な評価は、現在のモデルが画像地上ビデオの知覚と推論において著しく劣ることを示した。
さらに分析した結果,IV-Bench上でのモデル性能に影響を及ぼす要因として,推論パターン,フレーム数,解像度があることがわかった。
さらに、簡単なデータ合成アプローチにより、トレーニングプロクサにおけるデータフォーマットの整合性以上の、IV-Benchの課題を実証する。
これらの発見は、将来の研究に貴重な洞察を与えてくれる。
私たちのコードとデータはhttps://github.com/multimodal-art-projection/IV-Bench.comで公開されています。
関連論文リスト
- The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation [31.44879457190659]
本稿では,ビデオセグメンテーションにおけるLMMの可能性を完全に解き放つための,シンプルで効果的な推論最適化手法を提案する。
我々のソリューションはMeViSテストセットで61.98%のJ&Fを達成し、CVPR 2025で第4回PVUWチャレンジMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2025-04-07T15:24:54Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites [114.22835695929682]
InternVL 1.5はオープンソースのマルチモーダル大言語モデル(MLLM)である。
マルチモーダル理解において、オープンソースとプロプライエタリな商用モデルの間の能力ギャップを埋める。
論文 参考訳(メタデータ) (2024-04-25T17:59:19Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。