論文の概要: VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model
- arxiv url: http://arxiv.org/abs/2407.06491v1
- Date: Tue, 9 Jul 2024 01:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:35:13.523316
- Title: VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model
- Title(参考訳): VideoEval: ビデオファンデーションモデルの低コスト評価のための総合ベンチマークスイート
- Authors: Xinhao Li, Zhenpeng Huang, Jing Wang, Kunchang Li, Limin Wang,
- Abstract要約: ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
- 参考スコア(独自算出の注目度): 22.188795668927586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growth of high-quality data and advancement in visual pre-training paradigms, Video Foundation Models (VFMs) have made significant progress recently, demonstrating their remarkable performance on traditional video understanding benchmarks. However, the existing benchmarks (e.g. Kinetics) and their evaluation protocols are often limited by relatively poor diversity, high evaluation costs, and saturated performance metrics. In this paper, we build a comprehensive benchmark suite to address these issues, namely VideoEval. Specifically, we establish the Video Task Adaption Benchmark (VidTAB) and the Video Embedding Benchmark (VidEB) from two perspectives: evaluating the task adaptability of VFMs under few-shot conditions and assessing their representation power by directly applying to downstream tasks. With VideoEval, we conduct a large-scale study on 20 popular open-source vision foundation models. Our study reveals some insightful findings on VFMs: 1) overall, current VFMs exhibit weak generalization across diverse tasks, 2) increasing video data, whether labeled or weakly-labeled video-text pairs, does not necessarily improve task performance, 3) the effectiveness of some pre-training paradigms may not be fully validated in previous benchmarks, and 4) combining different pre-training paradigms can help improve the generalization capabilities. We believe this study serves as an important complement to the current evaluation for VFMs and offers valuable insights for the future research.
- Abstract(参考訳): 高品質なデータの増加と視覚前訓練のパラダイムの進歩により、ビデオファウンデーションモデル(VFM)は近年大きく進歩し、従来のビデオ理解ベンチマークで顕著なパフォーマンスを示している。
しかしながら、既存のベンチマーク(例えば、Kineetics)とその評価プロトコルは、比較的低い多様性、高い評価コスト、飽和パフォーマンスメトリクスによって制限されることが多い。
本稿では,これらの問題,すなわち VideoEval に対処するための総合的なベンチマークスイートを構築する。
具体的には,ビデオタスク適応ベンチマーク (VidTAB) とビデオ埋め込みベンチマーク (VidEB) を2つの視点から確立する。
VideoEvalでは、20の人気のあるオープンソースビジョン基盤モデルについて大規模な研究を行っている。
我々の研究は、VFMに関する洞察に富んだ発見を明らかにしている。
1) 全体として、現在のVFMは様々なタスクにまたがる弱い一般化を示す。
2) ラベル付き, ラベルの弱いビデオテキストペアであっても, 映像データの増大は必ずしもタスク性能を向上させるものではない。
3)事前学習のパラダイムの有効性は,以前のベンチマークでは十分に検証されない場合がある。
4) 異なる事前学習パラダイムを組み合わせることで、一般化能力を向上させることができる。
本研究は, VFMの現在の評価を補完する重要な役割を担い, 今後の研究に有用な知見を提供する。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Foundation Models for Video Understanding: A Survey [26.52064059342181]
ビデオファウンデーションモデル(ViFM)は、様々なビデオ理解タスクの汎用表現を学習することを目的としている。
このサーベイは200以上のビデオ基礎モデルを分析し、14の異なるビデオタスクにわたるベンチマークと評価指標の包括的な概要を提供する。
論文 参考訳(メタデータ) (2024-05-06T18:09:48Z) - ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in
Video-Language Models [28.305932427801682]
ViLMA(ビデオ言語モデルアセスメント)は,VidLMのきめ細かい機能を評価するタスク非依存のベンチマークである。
ViLMAは、コントロールされた評価スイートを提供し、これらのモデルの真の可能性と、人間レベルの理解と比較してパフォーマンスのギャップを浮き彫りにしている。
静止画像を用いた視覚言語モデルに比べ,現在のVidLMの接地能力は良くないことを示す。
論文 参考訳(メタデータ) (2023-11-13T02:13:13Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Realistic Video Summarization through VISIOCITY: A New Benchmark and
Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。
まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。
6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文 参考訳(メタデータ) (2020-07-29T02:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。