論文の概要: VEBench:Benchmarking Large Multimodal Models for Real-World Video Editing
- arxiv url: http://arxiv.org/abs/2605.03276v2
- Date: Fri, 08 May 2026 23:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.349202
- Title: VEBench:Benchmarking Large Multimodal Models for Real-World Video Editing
- Title(参考訳): VEBench:リアルタイムビデオ編集のための大規模マルチモーダルモデルのベンチマーク
- Authors: Andong Deng, Dawei Du, Zhenfang Chen, Wen Zhong, Fan Chen, Guang Chen, Chia-Wen Kuo, Longyin Wen, Chen Chen, Sijie Zhu,
- Abstract要約: 本稿では,現実的なビデオ編集シナリオにおける知識理解と操作的推論を評価するための最初のベンチマークであるVEBENCHを紹介する。
VEBENCHには3.9Kの高品質な編集ビデオ(257時間以上)と3,080の人間認証QAペアが含まれている。
ビデオ編集技術認識とビデオ編集操作シミュレーションの2つの補完的なQAタスクを備えている。
- 参考スコア(独自算出の注目度): 39.721584069301095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world video editing demands not only expert knowledge of cinematic techniques but also multimodal reasoning to select, align, and combine footage into coherent narratives. While recent Large Multimodal Models (LMMs) have shown remarkable progress in general video understanding, their abilities in multi-video reasoning and operational editing workflows remain largely unexplored. We introduce VEBENCH, the first comprehensive benchmark designed to evaluate both editing knowledge understanding and operational reasoning in realistic video editing scenarios. VEBENCH contains 3.9K high-quality edited videos (over 257 hours) and 3,080 human-verified QA pairs, built through a three-round human-AI collaborative annotation pipeline that ensures precise temporal labeling and semantic consistency. It features two complementary QA tasks: 1) Video Editing Technique Recognition, assessing models' ability to identify 7 editing techniques using multimodal cues; and 2) Video Editing Operation Simulation, modeling real-world editing workflows by requiring the selection and temporal localization of relevant clips from multiple candidates. Extensive experiments across proprietary (e.g., Gemini-2.5-Pro) and open-source LMMs reveal a large gap between current model performance and human-level editing cognition. These results highlight the urgent need for bridging video understanding with creative operational reasoning. We envision VEBENCH as a foundation for advancing intelligent video editing systems and driving future research on complex reasoning.
- Abstract(参考訳): 実世界のビデオ編集は、映画技術の専門家の知識だけでなく、映像をコヒーレントな物語に選択し、調整し、組み合わせるためのマルチモーダルな推論も要求する。
近年のLarge Multimodal Models (LMM) は、一般的なビデオ理解において顕著な進歩を見せているが、マルチビデオ推論や操作編集ワークフローにおけるそれらの能力は、まだ明らかにされていない。
VEBENCHは,現実的な映像編集シナリオにおける知識理解と操作的推論の両方を評価するために設計された,最初の総合的なベンチマークである。
VEBENCHには3.9Kの高品質な編集ビデオ(257時間以上)と3,080人の検証されたQAペアが含まれており、正確な時間ラベリングとセマンティック一貫性を保証する3ラウンドの人間とAIの共同アノテーションパイプラインを通して構築されている。
相補的な2つのQAタスクがある。
1)ビデオ編集技術認識、マルチモーダルキューを用いた7つの編集技術を識別するモデルの能力の評価
2)映像編集操作シミュレーションでは,複数の候補からの関連クリップの選択と時間的ローカライズを要し,実世界の編集ワークフローをモデル化する。
プロプライエタリな(Gemini-2.5-Proなど)とオープンソースのLMM間の大規模な実験により、現在のモデル性能と人間レベルの編集認知の間に大きなギャップが明らかになっている。
これらの結果は、創造的な操作的推論で映像理解をブリッジする緊急の必要性を浮き彫りにする。
我々は、VEBENCHを、インテリジェントなビデオ編集システムを進化させ、複雑な推論に関する将来の研究を推進するための基盤として想定する。
関連論文リスト
- A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding [69.31609753061137]
マルチモーダルな大規模言語モデルはシングルビデオ理解において高いパフォーマンスを達成しているが、複数のビデオにまたがる推論能力は依然として限られている。
既存のアプローチでは、複数のビデオを1つの入力にまとめて直接推論を行い、トレーニングと推論のミスマッチを導入する。
現在のマルチビデオベンチマークでは、主にイベントレベルの比較を強調しており、アイデンティティレベルのマッチング、きめ細かい識別、構造化されたマルチステップ推論が過小評価されている。
視覚ツール,タスク固有のスキル,コンフリクト対応検証機構を統合した,多視点理解のためのスキル強化型エージェントフレームワークSAMAを提案する。
論文 参考訳(メタデータ) (2026-03-16T02:09:48Z) - Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing [21.525921468472685]
本稿では,事前訓練されたマルチモーダル大言語モデル(MLLM)とビデオ拡散モデルとを接続し,ビデオ生成と編集を行うスケーラブルで効率的なモデルを提案する。
我々のキーとなる考え方は、MLLMの理解と推論能力を利用して、明示的なターゲットキャプションを生成し、ユーザー指示を解釈することである。
我々は,微細なビデオ編集のためのFiVEベンチマークとテキスト・ツー・ビデオ生成のためのVBenchベンチマークにおいて,Omni-Video 2の性能を評価する。
論文 参考訳(メタデータ) (2026-02-09T15:56:05Z) - Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding [43.785571875867]
本稿では,システムレベルの設計と最適化によって人間の映像理解を反映できるフレキシブルでトレーニング不要なフレームワークであるエージェントビデオインテリジェンス(AVI)を提案する。
AVIは、(1)人間にインスパイアされた3相推論プロセス(Retrieve-Perceive-Review)、(2)エンティティグラフによって構成された構造化ビデオ知識ベース、(3)軽量CVモデルとVLMを組み合わせたオープンソースのモデルアンサンブルの3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-11-18T12:43:15Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - VEU-Bench: Towards Comprehensive Understanding of Video Editing [4.9254235505057835]
VEU-Bench (Video Editing Understanding Benchmark, VEU-Bench) は、ビデオ編集コンポーネントを様々な次元に分類する総合的なベンチマークである。
編集要素分類に重点を置く従来のビデオ編集理解ベンチマークとは異なり、VEU-Benchは認識、推論、判断の3段階にわたる19のきめ細かいタスクを含んでいる。
VEU-Benchデータセットを微調整したVEUエキスパートモデルであるOscarsを開発した。VEU-Bench上の既存のオープンソースのVid-LLMを28.3%以上の精度で上回り、GPT-4oのような商用モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-24T04:36:28Z) - MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge [35.323379110573406]
本稿では,MultiModal Knowledge Editing Benchmark であるMMKE-Benchを紹介する。
LMMが現実世界のシナリオで様々な視覚的知識を編集する能力を評価するように設計されている。
ビジュアルエンティティ編集、ビジュアルセマンティック編集、ユーザー固有の編集という3種類の編集タスクが組み込まれている。
知識は2,940点、画像は8,363点、評価質問は自動的に生成され、人間による検証が行われる。
論文 参考訳(メタデータ) (2025-02-27T08:21:28Z) - Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。