論文の概要: V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction
- arxiv url: http://arxiv.org/abs/2503.17736v1
- Date: Sat, 22 Mar 2025 11:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:40:03.118665
- Title: V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction
- Title(参考訳): V2P-Bench: ヒューマンモデルインタラクション改善のためのビジュアルプロンプトによるビデオ言語理解の評価
- Authors: Yiming Zhao, Yu Zeng, Yukun Qi, YaoYang Liu, Lin Chen, Zehui Chen, Xikun Bao, Jie Zhao, Feng Zhao,
- Abstract要約: LVLM(Large Vision-Language Models)は近年,映像理解の分野で大きな進歩を遂げている。
現在のベンチマークはテキストに一様に依存しており、複雑な参照言語を必要とすることが多い。
マルチモーダルなヒューマンモデルインタラクションシナリオにおけるLVLMの映像理解能力を評価するためのベンチマークであるVideo Visual Prompt Benchmark(V2P-Bench)を提案する。
- 参考スコア(独自算出の注目度): 17.038321383586037
- License:
- Abstract: Large Vision-Language Models (LVLMs) have made significant progress in the field of video understanding recently. However, current benchmarks uniformly lean on text prompts for evaluation, which often necessitate complex referential language and fail to provide precise spatial and temporal references. This limitation diminishes the experience and efficiency of human-model interaction. To address this limitation, we propose the Video Visual Prompt Benchmark(V2P-Bench), a comprehensive benchmark specifically designed to evaluate LVLMs' video understanding capabilities in multimodal human-model interaction scenarios. V2P-Bench includes 980 unique videos and 1,172 QA pairs, covering 5 main tasks and 12 dimensions, facilitating instance-level fine-grained understanding aligned with human cognition. Benchmarking results reveal that even the most powerful models perform poorly on V2P-Bench (65.4% for GPT-4o and 67.9% for Gemini-1.5-Pro), significantly lower than the human experts' 88.3%, highlighting the current shortcomings of LVLMs in understanding video visual prompts. We hope V2P-Bench will serve as a foundation for advancing multimodal human-model interaction and video understanding evaluation. Project page: https://github.com/gaotiexinqu/V2P-Bench.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は近年,映像理解の分野で大きな進歩を遂げている。
しかし、現在のベンチマークはテキストに一様に依存しており、複雑な参照言語を必要とすることが多く、正確な空間的および時間的参照を提供することができない。
この制限は、人間-モデル相互作用の経験と効率を低下させる。
この制限に対処するため,マルチモーダルなヒューマンモデルインタラクションシナリオにおけるLVLMの映像理解能力を評価するための総合ベンチマークであるVideo Visual Prompt Benchmark(V2P-Bench)を提案する。
V2P-Benchには、980のユニークなビデオと1,172のQAペアが含まれており、5つの主要なタスクと12の次元をカバーする。
ベンチマーク結果によると、最も強力なモデルでさえV2P-Bench(GPT-4oは65.4%、Gemini-1.5-Proは67.9%)では性能が悪く、人間の専門家の88.3%よりも大幅に低下しており、映像の視覚的プロンプトを理解する上でのLVLMの現在の欠点を浮き彫りにしている。
V2P-Benchがマルチモーダルなヒューマンモデルインタラクションとビデオ理解評価の基盤となることを願っている。
プロジェクトページ: https://github.com/gaotiexinqu/V2P-Bench
関連論文リスト
- SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison [15.363132825156477]
ビデオ記述は、ビデオ理解を評価するための基本的なタスクであり、空間的・時間的ダイナミクスの深い理解を必要とする。
ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、注目すべき制限がある。
本稿では,LVLMと人間の理解の相違をより包括的に評価するための新しいベンチマークFIOVAを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Enhancing Video Transformers for Action Understanding with VLM-aided Training [10.02739652443895]
本稿では,VTとVLMの相補的な長所を活かしたフレームワークを提案する。
FTPフレームワークには、ビデオ中の人間のアクションの特定の側面に焦点を当てたプロセッサが追加されている。
我々は,Kineetics-400とSomething V2で93.8%,VideoMAEv2を2.8%,Something V2を2.6%上回った。
論文 参考訳(メタデータ) (2024-03-24T12:55:50Z) - AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering [6.088350050879401]
我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。
1)AutoEval-Videoは9つのスキルディメンションにまたがるオープンエンドなビデオクエストを構築し,認識能力,理解力,生成能力に対処する。
インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。
論文 参考訳(メタデータ) (2023-11-25T02:46:12Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。