論文の概要: VEU-Bench: Towards Comprehensive Understanding of Video Editing
- arxiv url: http://arxiv.org/abs/2504.17828v1
- Date: Thu, 24 Apr 2025 04:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.530548
- Title: VEU-Bench: Towards Comprehensive Understanding of Video Editing
- Title(参考訳): VEU-Bench:ビデオ編集の理解に向けて
- Authors: Bozheng Li, Yongliang Wu, Yi Lu, Jiashuo Yu, Licheng Tang, Jiawang Cao, Wenqing Zhu, Yuyang Sun, Jay Wu, Wenbo Zhu,
- Abstract要約: VEU-Bench (Video Editing Understanding Benchmark, VEU-Bench) は、ビデオ編集コンポーネントを様々な次元に分類する総合的なベンチマークである。
編集要素分類に重点を置く従来のビデオ編集理解ベンチマークとは異なり、VEU-Benchは認識、推論、判断の3段階にわたる19のきめ細かいタスクを含んでいる。
VEU-Benchデータセットを微調整したVEUエキスパートモデルであるOscarsを開発した。VEU-Bench上の既存のオープンソースのVid-LLMを28.3%以上の精度で上回り、GPT-4oのような商用モデルに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 4.9254235505057835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Widely shared videos on the internet are often edited. Recently, although Video Large Language Models (Vid-LLMs) have made great progress in general video understanding tasks, their capabilities in video editing understanding (VEU) tasks remain unexplored. To address this gap, in this paper, we introduce VEU-Bench (Video Editing Understanding Benchmark), a comprehensive benchmark that categorizes video editing components across various dimensions, from intra-frame features like shot size to inter-shot attributes such as cut types and transitions. Unlike previous video editing understanding benchmarks that focus mainly on editing element classification, VEU-Bench encompasses 19 fine-grained tasks across three stages: recognition, reasoning, and judging. To enhance the annotation of VEU automatically, we built an annotation pipeline integrated with an ontology-based knowledge base. Through extensive experiments with 11 state-of-the-art Vid-LLMs, our findings reveal that current Vid-LLMs face significant challenges in VEU tasks, with some performing worse than random choice. To alleviate this issue, we develop Oscars, a VEU expert model fine-tuned on the curated VEU-Bench dataset. It outperforms existing open-source Vid-LLMs on VEU-Bench by over 28.3% in accuracy and achieves performance comparable to commercial models like GPT-4o. We also demonstrate that incorporating VEU data significantly enhances the performance of Vid-LLMs on general video understanding benchmarks, with an average improvement of 8.3% across nine reasoning tasks.
- Abstract(参考訳): インターネット上で広く共有されるビデオは、しばしば編集される。
近年、ビデオ大言語モデル(Vid-LLMs)は、一般的なビデオ理解タスクにおいて大きな進歩を遂げているが、ビデオ編集理解(VEU)タスクにおけるその能力は未解明のままである。
このギャップに対処するために,ビデオ編集理解ベンチマーク(VEU-Bench, Video Editing Understanding Benchmark, VEU-Bench)を提案する。
編集要素分類に重点を置く従来のビデオ編集理解ベンチマークとは異なり、VEU-Benchは認識、推論、判断の3段階にわたる19のきめ細かいタスクを含んでいる。
VEUのアノテーションを自動的に強化するため、オントロジーベースの知識ベースと統合したアノテーションパイプラインを構築した。
最新のVid-LLMを11種類の最先端のVid-LLMを用いて広範囲に実験した結果,現在のVid-LLMはVEUタスクにおいて重大な課題に直面していることが明らかとなった。
この問題を軽減するために、キュレートされたVEU-Benchデータセットに基づいて微調整されたVEUエキスパートモデルであるOscarsを開発する。
VEU-Benchの既存のオープンソースのVid-LLMを28.3%以上の精度で上回り、GPT-4oのような商用モデルに匹敵するパフォーマンスを実現している。
また、VEUデータの導入により、一般的なビデオ理解ベンチマークにおけるVid-LLMの性能が著しく向上し、9つの推論タスクの平均8.3%が向上することを示した。
関連論文リスト
- StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
本稿では,テキスト駆動ビデオ編集の評価に適したベンチマークスイートであるVE-Benchを紹介する。
このスイートには、ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるVE-Bench DBが含まれている。
VE-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T09:49:32Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。