Fugu-MT 論文翻訳(概要): SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation

論文の概要: SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation

arxiv url: http://arxiv.org/abs/2603.29186v1
Date: Tue, 31 Mar 2026 02:51:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.061937
Title: SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation
Title（参考訳）: SLVMEval:テキスト対Longビデオ生成のための合成メタ評価ベンチマーク
Authors: Ryosuke Matsuda, Keito Kudo, Haruto Yoshida, Nobuyuki Shimizu, Jun Suzuki,
Abstract要約: 本稿では,メタキャプション・テキスト・トゥ・ビデオ(T2V)評価システムのベンチマークであるSLVMEvalを提案する。このベンチマークは、人間が簡単に評価できる設定でビデオの品質を正確に評価できるかどうかという、基本的な要件をターゲットにしている。
参考スコア（独自算出の注目度）: 8.312292561441058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes the synthetic long-video meta-evaluation (SLVMEval), a benchmark for meta-evaluating text-to-video (T2V) evaluation systems. The proposed SLVMEval benchmark focuses on assessing these systems on videos of up to 10,486 s (approximately 3 h). The benchmark targets a fundamental requirement, namely, whether the systems can accurately assess video quality in settings that are easy for humans to assess. We adopt a pairwise comparison-based meta-evaluation framework. Building on dense video-captioning datasets, we synthetically degrade source videos to create controlled "high-quality versus low-quality" pairs across 10 distinct aspects. Then, we employ crowdsourcing to filter and retain only those pairs in which the degradation is clearly perceptible, thereby establishing an effective final testbed. Using this testbed, we assess the reliability of existing evaluation systems in ranking these pairs. Experimental results demonstrate that human evaluators can identify the better long video with 84.7%-96.8% accuracy, and in nine of the 10 aspects, the accuracy of these systems falls short of human assessment, revealing weaknesses in text-to-long-video evaluation.
Abstract（参考訳）: 本稿では,T2V (Meta-evaluating Text-to-Video) 評価システムのベンチマークとして,SLVMEval(Synthetic Long-video Meta-evaluation)を提案する。提案されたSLVMEvalベンチマークは、これらのシステムを最大10,486 s (約3 h)のビデオで評価することに焦点を当てている。このベンチマークは、人間が簡単に評価できる設定でビデオの品質を正確に評価できるかどうかという、基本的な要件をターゲットにしている。ペアワイズ比較に基づくメタ評価フレームワークを採用する。密集したビデオキャプションデータセットに基づいて、ソースビデオを合成分解して、10つの異なる側面で制御された“高品質対低品質”のペアを作成します。そして, クラウドソーシングを用いて, 劣化が明確に認識可能なペアのみをフィルタし, 保持し, 有効な最終テストベッドを確立する。このテストベッドを用いて、既存の評価システムの信頼性を評価し、これらのペアをランク付けする。実験の結果、人間の評価者は84.7%-96.8%の精度でより長い動画を識別でき、10つの側面のうち9つの側面において、これらのシステムの精度は人間の評価に欠けており、テキスト対ビデオ評価の弱点が明らかになっている。

関連論文リスト

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文参考訳（メタデータ） (2025-11-24T07:00:21Z)
VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文参考訳（メタデータ） (2025-09-26T18:09:03Z)
Are Synthetic Videos Useful? A Benchmark for Retrieval-Centric Evaluation of Synthetic Videos [16.36132851725219]
検索モデル構築のための合成ビデオの有用性を評価するために設計された新しいデータセットとベンチマークであるSynTVAを紹介する。我々は最先端のT2Vモデルを用いて合成ビデオを生成し、各ビデオテキスト対を4つのキーセマンティックアライメント次元に沿ってアノテートする。評価フレームワークは、これらのアライメントスコアと一般的なビデオ品質評価(VQA)メトリクスを関連付け、下流のテキスト・ビデオ検索性能の予測能力について検討する。
論文参考訳（メタデータ） (2025-07-03T05:01:46Z)
VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文参考訳（メタデータ） (2025-03-30T14:12:21Z)
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文参考訳（メタデータ） (2025-03-04T07:04:55Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。