論文の概要: UniVBench: Towards Unified Evaluation for Video Foundation Models
- arxiv url: http://arxiv.org/abs/2602.21835v1
- Date: Wed, 25 Feb 2026 12:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.823915
- Title: UniVBench: Towards Unified Evaluation for Video Foundation Models
- Title(参考訳): UniVBench: ビデオファウンデーションモデルの統一評価を目指して
- Authors: Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu,
- Abstract要約: ビデオファウンデーションモデルは、ビデオ理解、生成、編集、インストラクションを単一のフレームワークに統合することを目的としている。
UniVBenchは、4つのコア能力にまたがるビデオ基盤モデルを評価するためのベンチマークである。
本ベンチマークでは,200本の高画質・多機能・マルチショット映像を取り入れることで,評価の複雑さを大幅に拡大する。
- 参考スコア(独自算出の注目度): 29.73247324829126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video foundation models aim to integrate video understanding, generation, editing, and instruction following within a single framework, making them a central direction for next-generation multimodal systems. However, existing evaluation benchmarks remain fragmented and limited in scope, as they each target a single task, rely on task-specific metrics, and typically use short or simple video clips. As a result, they do not capture the unified capabilities that these models are designed to deliver. To address this gap, we introduce UniVBench, a benchmark purpose-built for evaluating video foundation models across four core abilities: video understanding, video generation, video editing, and a newly proposed task, video reconstruction, which assesses how faithfully a model can reproduce video content it has encountered. Our benchmark substantially expands the complexity of evaluation by incorporating 200 high-quality, diverse and multi-shot videos, each paired with detailed captions, multi-format editing instructions, and reference images. All videos are human-created and carefully validated, offering richer cinematic information than prior benchmarks. In addition, we develop a unified agentic evaluation system (UniV-Eval) that standardizes prompting, instruction parsing, and scoring across all tasks, enabling fair, scalable, and reproducible comparisons of unified video models. By grounding evaluation in instruction-based multi-shot video tasks, UniVBench provides the first framework for measuring the integrated capabilities that video foundation models aim to achieve. Extensive human annotations ensure our evaluation aligns with human judgment, enabling rigorous assessment and accelerating progress toward robust video intelligence.
- Abstract(参考訳): ビデオファウンデーションモデルは、ビデオ理解、生成、編集、インストラクションを単一のフレームワークに統合することを目的としており、次世代マルチモーダルシステムにおける中心的な方向性となっている。
しかし、既存の評価ベンチマークは、それぞれのタスクが単一のタスクをターゲットにし、タスク固有のメトリクスに依存し、通常、短いビデオクリップまたは単純なビデオクリップを使用するため、断片化され、スコープが限られている。
結果として、これらのモデルが提供するように設計された統一された機能をキャプチャすることはできません。
このギャップに対処するために、UniVBenchは、ビデオ理解、ビデオ生成、ビデオ編集、新たに提案されたタスクであるビデオ再構成の4つのコア能力でビデオ基盤モデルを評価するために構築されたベンチマークである。
本ベンチマークでは,200本の高画質・多機能・マルチショットビデオと,詳細なキャプション,複数フォーマットの編集指示,参照画像とを組み合わせ,評価の複雑さを大幅に拡大する。
すべてのビデオは人間によって作成され、慎重に検証され、以前のベンチマークよりもリッチな撮影情報を提供する。
さらに,全タスクのプロンプト,命令解析,スコアリングを標準化し,統一映像モデルの公平かつスケーラブルかつ再現可能な比較を可能にする統一エージェント評価システム(UniV-Eval)を開発した。
命令ベースのマルチショットビデオタスクの評価を基礎にすることで、UniVBenchは、ビデオファンデーションモデルが達成しようとしている統合機能を測定するための最初のフレームワークを提供する。
広範囲な人間のアノテーションは人間の判断と一致し、厳密な評価を可能にし、堅牢なビデオインテリジェンスへの進歩を加速させる。
関連論文リスト
- LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding [23.207637210563504]
LiViBenchはインタラクティブなライブストリームビデオのための全方位ベンチマークである。
24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。
インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
論文 参考訳(メタデータ) (2026-01-21T14:14:20Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。