Fugu-MT 論文翻訳(概要): UniVBench: Towards Unified Evaluation for Video Foundation Models

論文の概要: UniVBench: Towards Unified Evaluation for Video Foundation Models

arxiv url: http://arxiv.org/abs/2602.21835v1
Date: Wed, 25 Feb 2026 12:08:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.823915
Title: UniVBench: Towards Unified Evaluation for Video Foundation Models
Title（参考訳）: UniVBench: ビデオファウンデーションモデルの統一評価を目指して
Authors: Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu,
Abstract要約: ビデオファウンデーションモデルは、ビデオ理解、生成、編集、インストラクションを単一のフレームワークに統合することを目的としている。 UniVBenchは、4つのコア能力にまたがるビデオ基盤モデルを評価するためのベンチマークである。本ベンチマークでは,200本の高画質・多機能・マルチショット映像を取り入れることで,評価の複雑さを大幅に拡大する。
参考スコア（独自算出の注目度）: 29.73247324829126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video foundation models aim to integrate video understanding, generation, editing, and instruction following within a single framework, making them a central direction for next-generation multimodal systems. However, existing evaluation benchmarks remain fragmented and limited in scope, as they each target a single task, rely on task-specific metrics, and typically use short or simple video clips. As a result, they do not capture the unified capabilities that these models are designed to deliver. To address this gap, we introduce UniVBench, a benchmark purpose-built for evaluating video foundation models across four core abilities: video understanding, video generation, video editing, and a newly proposed task, video reconstruction, which assesses how faithfully a model can reproduce video content it has encountered. Our benchmark substantially expands the complexity of evaluation by incorporating 200 high-quality, diverse and multi-shot videos, each paired with detailed captions, multi-format editing instructions, and reference images. All videos are human-created and carefully validated, offering richer cinematic information than prior benchmarks. In addition, we develop a unified agentic evaluation system (UniV-Eval) that standardizes prompting, instruction parsing, and scoring across all tasks, enabling fair, scalable, and reproducible comparisons of unified video models. By grounding evaluation in instruction-based multi-shot video tasks, UniVBench provides the first framework for measuring the integrated capabilities that video foundation models aim to achieve. Extensive human annotations ensure our evaluation aligns with human judgment, enabling rigorous assessment and accelerating progress toward robust video intelligence.
Abstract（参考訳）: ビデオファウンデーションモデルは、ビデオ理解、生成、編集、インストラクションを単一のフレームワークに統合することを目的としており、次世代マルチモーダルシステムにおける中心的な方向性となっている。しかし、既存の評価ベンチマークは、それぞれのタスクが単一のタスクをターゲットにし、タスク固有のメトリクスに依存し、通常、短いビデオクリップまたは単純なビデオクリップを使用するため、断片化され、スコープが限られている。結果として、これらのモデルが提供するように設計された統一された機能をキャプチャすることはできません。このギャップに対処するために、UniVBenchは、ビデオ理解、ビデオ生成、ビデオ編集、新たに提案されたタスクであるビデオ再構成の4つのコア能力でビデオ基盤モデルを評価するために構築されたベンチマークである。本ベンチマークでは,200本の高画質・多機能・マルチショットビデオと,詳細なキャプション,複数フォーマットの編集指示,参照画像とを組み合わせ,評価の複雑さを大幅に拡大する。すべてのビデオは人間によって作成され、慎重に検証され、以前のベンチマークよりもリッチな撮影情報を提供する。さらに,全タスクのプロンプト,命令解析,スコアリングを標準化し,統一映像モデルの公平かつスケーラブルかつ再現可能な比較を可能にする統一エージェント評価システム(UniV-Eval)を開発した。命令ベースのマルチショットビデオタスクの評価を基礎にすることで、UniVBenchは、ビデオファンデーションモデルが達成しようとしている統合機能を測定するための最初のフレームワークを提供する。広範囲な人間のアノテーションは人間の判断と一致し、厳密な評価を可能にし、堅牢なビデオインテリジェンスへの進歩を加速させる。

関連論文リスト

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding [23.207637210563504]
LiViBenchはインタラクティブなライブストリームビデオのための全方位ベンチマークである。 24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
論文参考訳（メタデータ） (2026-01-21T14:14:20Z)
VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文参考訳（メタデータ） (2025-09-26T18:09:03Z)
Video-Bench: Human-Aligned Video Generation Benchmark [26.31594706735867]
生成モデルが視覚的にリアルで高品質なビデオを生成することを保証するためには、ビデオ生成アセスメントが不可欠である。本稿では,豊富なプロンプトスイートと広範囲な評価次元を備えた総合的なベンチマークであるVideo-Benchを紹介する。 Soraを含む先進的なモデルの実験は、ビデオベンチがあらゆる次元にわたる人間の好みと優れた整合性を達成することを示した。
論文参考訳（メタデータ） (2025-04-07T10:32:42Z)
Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文参考訳（メタデータ） (2025-01-10T18:59:54Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文参考訳（メタデータ） (2023-11-27T18:59:58Z)
Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文参考訳（メタデータ） (2023-11-20T20:24:45Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
InternVideo: General Video Foundation Models via Generative and Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。 InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-12-06T18:09:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。