論文の概要: TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs
- arxiv url: http://arxiv.org/abs/2505.19535v1
- Date: Mon, 26 May 2025 05:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.194636
- Title: TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs
- Title(参考訳): TDVE-Assessor:LMMによるテキスト駆動ビデオ編集の品質のベンチマークと評価
- Authors: Juntong Wang, Jiarui Wang, Huiyu Duan, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: テキスト駆動ビデオ編集のための大規模ベンチマークデータセットであるTDVE-DBを紹介する。
TDVE-DBは8つの編集カテゴリにまたがる12の多様なモデルから生成される3,857の編集ビデオで構成されている。
テキスト駆動ビデオ編集評価に特化して設計された新しいVQAモデルであるTDVE-Assessorを提案する。
- 参考スコア(独自算出の注目度): 54.44479359918971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven video editing is rapidly advancing, yet its rigorous evaluation remains challenging due to the absence of dedicated video quality assessment (VQA) models capable of discerning the nuances of editing quality. To address this critical gap, we introduce TDVE-DB, a large-scale benchmark dataset for text-driven video editing. TDVE-DB consists of 3,857 edited videos generated from 12 diverse models across 8 editing categories, and is annotated with 173,565 human subjective ratings along three crucial dimensions, i.e., edited video quality, editing alignment, and structural consistency. Based on TDVE-DB, we first conduct a comprehensive evaluation for the 12 state-of-the-art editing models revealing the strengths and weaknesses of current video techniques, and then benchmark existing VQA methods in the context of text-driven video editing evaluation. Building on these insights, we propose TDVE-Assessor, a novel VQA model specifically designed for text-driven video editing assessment. TDVE-Assessor integrates both spatial and temporal video features into a large language model (LLM) for rich contextual understanding to provide comprehensive quality assessment. Extensive experiments demonstrate that TDVE-Assessor substantially outperforms existing VQA models on TDVE-DB across all three evaluation dimensions, setting a new state-of-the-art. Both TDVE-DB and TDVE-Assessor will be released upon the publication.
- Abstract(参考訳): テキスト駆動のビデオ編集は急速に進歩しているが、編集品質のニュアンスを識別できる専用ビデオ品質評価(VQA)モデルがないため、厳密な評価は依然として難しい。
この重要なギャップに対処するために、テキスト駆動ビデオ編集のための大規模ベンチマークデータセットであるTDVE-DBを導入する。
TDVE-DBは8つの編集カテゴリにまたがる12の多様なモデルから生成される3,857本の編集ビデオで構成されており、173,565人の主観評価と3つの重要な次元、すなわち、編集ビデオの品質、編集アライメント、構造整合性によって注釈付けされている。
TDVE-DBに基づいて、我々はまず、現在のビデオ技術の長所と短所を明らかにする12の最先端編集モデルの総合評価を行い、テキスト駆動ビデオ編集評価の文脈において既存のVQA手法をベンチマークする。
これらの知見に基づいて,テキスト駆動ビデオ編集評価に特化して設計された新しいVQAモデルであるTDVE-Assessorを提案する。
TDVE-Assessorは、空間的および時間的ビデオ特徴を大きな言語モデル(LLM)に統合し、コンテキスト理解を充実させ、包括的な品質評価を提供する。
大規模な実験により、TDVE-AssessorはTDVE-DB上の既存のVQAモデルを3つの評価次元で大幅に上回っており、新しい最先端技術を確立している。
TDVE-DB と TDVE-Assessor はいずれも出版時にリリースされる。
関連論文リスト
- AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - EditBoard: Towards a Comprehensive Evaluation Benchmark for Text-Based Video Editing Models [16.045012576543474]
テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。
既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。
テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
論文 参考訳(メタデータ) (2024-09-15T08:43:18Z) - VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
本稿では,テキスト駆動ビデオ編集の評価に適したベンチマークスイートであるVE-Benchを紹介する。
このスイートには、ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるVE-Bench DBが含まれている。
VE-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T09:49:32Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。