論文の概要: IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
- arxiv url: http://arxiv.org/abs/2510.11647v1
- Date: Mon, 13 Oct 2025 17:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.477486
- Title: IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
- Title(参考訳): IVEBench: インストラクションガイドによるビデオ編集評価のための最新のベンチマークスイート
- Authors: Yinan Chen, Jiangning Zhang, Teng Hu, Yuxiang Zeng, Zhucun Xue, Qingdong He, Chengjie Wang, Yong Liu, Xiaobin Hu, Shuicheng Yan,
- Abstract要約: IVEBenchは、命令誘導ビデオ編集アセスメント用に特別に設計されたベンチマークスイートである。
様々な600の高品質なソースビデオのデータベースからなり、7つのセマンティックディメンションにまたがり、32フレームから1,024フレームの動画をカバーしている。
IVEBenchは、映像品質、命令順守、映像忠実度を含む3次元評価プロトコルを確立する。
- 参考スコア(独自算出の注目度): 108.8652018167452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-guided video editing has emerged as a rapidly advancing research direction, offering new opportunities for intuitive content transformation while also posing significant challenges for systematic evaluation. Existing video editing benchmarks fail to support the evaluation of instruction-guided video editing adequately and further suffer from limited source diversity, narrow task coverage and incomplete evaluation metrics. To address the above limitations, we introduce IVEBench, a modern benchmark suite specifically designed for instruction-guided video editing assessment. IVEBench comprises a diverse database of 600 high-quality source videos, spanning seven semantic dimensions, and covering video lengths ranging from 32 to 1,024 frames. It further includes 8 categories of editing tasks with 35 subcategories, whose prompts are generated and refined through large language models and expert review. Crucially, IVEBench establishes a three-dimensional evaluation protocol encompassing video quality, instruction compliance and video fidelity, integrating both traditional metrics and multimodal large language model-based assessments. Extensive experiments demonstrate the effectiveness of IVEBench in benchmarking state-of-the-art instruction-guided video editing methods, showing its ability to provide comprehensive and human-aligned evaluation outcomes.
- Abstract(参考訳): 指導指導による動画編集は急速に進歩する研究の方向性として現れ、直感的なコンテンツ変換の新たな機会を提供するとともに、体系的な評価のための重要な課題を提起している。
既存のビデオ編集ベンチマークでは、命令誘導ビデオ編集の評価を適切にサポートできず、さらにソースの多様性の制限、タスクカバレッジの制限、不完全な評価指標に悩まされている。
上記の制限に対処するため,命令誘導ビデオ編集評価に特化して設計された最新のベンチマークスイートであるIVEBenchを紹介した。
IVEBenchは、600の高品質なソースビデオの多種多様なデータベースで構成され、7つのセマンティックディメンションにまたがり、32フレームから1,024フレームまでのビデオの長さをカバーする。
さらに、35のサブカテゴリを持つ編集タスクの8つのカテゴリが含まれており、そのプロンプトは大きな言語モデルと専門家レビューを通じて生成され、洗練される。
IVEBenchは、ビデオ品質、命令コンプライアンス、ビデオの忠実度を包含する3次元評価プロトコルを確立し、従来のメトリクスとマルチモーダルな大規模言語モデルに基づくアセスメントを統合する。
集約的な実験は、最先端の指導誘導映像編集手法のベンチマークにおけるIVEBenchの有効性を実証し、包括的かつヒューマンアライメントされた評価結果を提供する能力を示した。
関連論文リスト
- VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。
我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文 参考訳(メタデータ) (2025-09-26T18:09:03Z) - TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs [54.44479359918971]
テキスト駆動ビデオ編集のための大規模ベンチマークデータセットであるTDVE-DBを紹介する。
TDVE-DBは8つの編集カテゴリにまたがる12の多様なモデルから生成される3,857の編集ビデオで構成されている。
テキスト駆動ビデオ編集評価に特化して設計された新しいVQAモデルであるTDVE-Assessorを提案する。
論文 参考訳(メタデータ) (2025-05-26T05:47:09Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - VEU-Bench: Towards Comprehensive Understanding of Video Editing [4.9254235505057835]
VEU-Bench (Video Editing Understanding Benchmark, VEU-Bench) は、ビデオ編集コンポーネントを様々な次元に分類する総合的なベンチマークである。
編集要素分類に重点を置く従来のビデオ編集理解ベンチマークとは異なり、VEU-Benchは認識、推論、判断の3段階にわたる19のきめ細かいタスクを含んでいる。
VEU-Benchデータセットを微調整したVEUエキスパートモデルであるOscarsを開発した。VEU-Bench上の既存のオープンソースのVid-LLMを28.3%以上の精度で上回り、GPT-4oのような商用モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-24T04:36:28Z) - EditBoard: Towards a Comprehensive Evaluation Benchmark for Text-Based Video Editing Models [16.045012576543474]
テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。
既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。
テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
論文 参考訳(メタデータ) (2024-09-15T08:43:18Z) - VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
本稿では,テキスト駆動ビデオ編集の評価に適したベンチマークスイートであるVE-Benchを紹介する。
このスイートには、ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるVE-Bench DBが含まれている。
VE-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T09:49:32Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。