論文の概要: TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs
- arxiv url: http://arxiv.org/abs/2505.19535v1
- Date: Mon, 26 May 2025 05:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.194636
- Title: TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs
- Title(参考訳): TDVE-Assessor:LMMによるテキスト駆動ビデオ編集の品質のベンチマークと評価
- Authors: Juntong Wang, Jiarui Wang, Huiyu Duan, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: テキスト駆動ビデオ編集のための大規模ベンチマークデータセットであるTDVE-DBを紹介する。
TDVE-DBは8つの編集カテゴリにまたがる12の多様なモデルから生成される3,857の編集ビデオで構成されている。
テキスト駆動ビデオ編集評価に特化して設計された新しいVQAモデルであるTDVE-Assessorを提案する。
- 参考スコア(独自算出の注目度): 54.44479359918971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven video editing is rapidly advancing, yet its rigorous evaluation remains challenging due to the absence of dedicated video quality assessment (VQA) models capable of discerning the nuances of editing quality. To address this critical gap, we introduce TDVE-DB, a large-scale benchmark dataset for text-driven video editing. TDVE-DB consists of 3,857 edited videos generated from 12 diverse models across 8 editing categories, and is annotated with 173,565 human subjective ratings along three crucial dimensions, i.e., edited video quality, editing alignment, and structural consistency. Based on TDVE-DB, we first conduct a comprehensive evaluation for the 12 state-of-the-art editing models revealing the strengths and weaknesses of current video techniques, and then benchmark existing VQA methods in the context of text-driven video editing evaluation. Building on these insights, we propose TDVE-Assessor, a novel VQA model specifically designed for text-driven video editing assessment. TDVE-Assessor integrates both spatial and temporal video features into a large language model (LLM) for rich contextual understanding to provide comprehensive quality assessment. Extensive experiments demonstrate that TDVE-Assessor substantially outperforms existing VQA models on TDVE-DB across all three evaluation dimensions, setting a new state-of-the-art. Both TDVE-DB and TDVE-Assessor will be released upon the publication.
- Abstract(参考訳): テキスト駆動のビデオ編集は急速に進歩しているが、編集品質のニュアンスを識別できる専用ビデオ品質評価(VQA)モデルがないため、厳密な評価は依然として難しい。
この重要なギャップに対処するために、テキスト駆動ビデオ編集のための大規模ベンチマークデータセットであるTDVE-DBを導入する。
TDVE-DBは8つの編集カテゴリにまたがる12の多様なモデルから生成される3,857本の編集ビデオで構成されており、173,565人の主観評価と3つの重要な次元、すなわち、編集ビデオの品質、編集アライメント、構造整合性によって注釈付けされている。
TDVE-DBに基づいて、我々はまず、現在のビデオ技術の長所と短所を明らかにする12の最先端編集モデルの総合評価を行い、テキスト駆動ビデオ編集評価の文脈において既存のVQA手法をベンチマークする。
これらの知見に基づいて,テキスト駆動ビデオ編集評価に特化して設計された新しいVQAモデルであるTDVE-Assessorを提案する。
TDVE-Assessorは、空間的および時間的ビデオ特徴を大きな言語モデル(LLM)に統合し、コンテキスト理解を充実させ、包括的な品質評価を提供する。
大規模な実験により、TDVE-AssessorはTDVE-DB上の既存のVQAモデルを3つの評価次元で大幅に上回っており、新しい最先端技術を確立している。
TDVE-DB と TDVE-Assessor はいずれも出版時にリリースされる。
関連論文リスト
- VEU-Bench: Towards Comprehensive Understanding of Video Editing [4.9254235505057835]
VEU-Bench (Video Editing Understanding Benchmark, VEU-Bench) は、ビデオ編集コンポーネントを様々な次元に分類する総合的なベンチマークである。
編集要素分類に重点を置く従来のビデオ編集理解ベンチマークとは異なり、VEU-Benchは認識、推論、判断の3段階にわたる19のきめ細かいタスクを含んでいる。
VEU-Benchデータセットを微調整したVEUエキスパートモデルであるOscarsを開発した。VEU-Bench上の既存のオープンソースのVid-LLMを28.3%以上の精度で上回り、GPT-4oのような商用モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-24T04:36:28Z) - FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models [17.788970036356297]
本稿では,新たな拡散モデルと修正フローモデルを評価するための微細ビデオ編集ベンチマークFiVEを紹介する。
私たちのベンチマークには、74の現実世界のビデオと26の生成されたビデオが含まれており、6つのきめ細かい編集タイプ、420のオブジェクトレベルの編集プロンプトペア、およびそれに対応するマスクが含まれている。
本研究では, 背景保存, テキスト・ビデオの類似性, 時間的一貫性, 映像品質, ランタイムの5つの指標を用いて, 拡散に基づく5つの手法と2つのRFベースの編集手法をFiVEベンチマークで評価した。
論文 参考訳(メタデータ) (2025-03-17T19:47:41Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - EditBoard: Towards a Comprehensive Evaluation Benchmark for Text-Based Video Editing Models [16.045012576543474]
テキストベースのビデオ編集は有望な分野として現れ、テキストプロンプトに基づいたビデオの正確な修正を可能にしている。
既存の評価は限定的で一貫性がなく、通常、全体的なパフォーマンスを単一のスコアで要約する。
テキストベースのビデオ編集モデルの総合評価ベンチマークであるEditBoardを提案する。
論文 参考訳(メタデータ) (2024-09-15T08:43:18Z) - VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment [6.627422081288281]
本稿では,テキスト駆動ビデオ編集の評価に適したベンチマークスイートであるVE-Benchを紹介する。
このスイートには、ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるVE-Bench DBが含まれている。
VE-Bench QAは、テキストビデオアライメントと、ソースと編集されたビデオ間の関連モデリングに焦点を当てている。
論文 参考訳(メタデータ) (2024-08-21T09:49:32Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - StableVQA: A Deep No-Reference Quality Assessment Model for Video
Stability [56.462032266188785]
ビデオシェーキネス(英: video shakiness)は、ユーザー生成コンテンツ(UGC)ビデオの不愉快な歪みであり、通常は不安定なカメラホールドによって引き起こされる。
我々は1,952種類の動画を多種多様に整った新しいデータベースを構築し、34人の被験者によって評価されたビデオ安定性の度合いに基づいて、各ビデオに平均オピニオンスコア(MOS)がある。
我々は,光学的フロー,セマンティック,ブラーの3つの特徴抽出器と,最終的な安定性を予測するための回帰層からなる,新しいVQA-SモデルであるStableVQAを精巧に設計する。
論文 参考訳(メタデータ) (2023-08-09T12:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。