論文の概要: What You See Is What Matters: A Novel Visual and Physics-Based Metric for Evaluating Video Generation Quality
- arxiv url: http://arxiv.org/abs/2411.13609v1
- Date: Wed, 20 Nov 2024 01:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:24.986483
- Title: What You See Is What Matters: A Novel Visual and Physics-Based Metric for Evaluating Video Generation Quality
- Title(参考訳): ビデオ生成の質を評価するための新しいビジュアルと物理ベースのメトリクス
- Authors: Zihan Wang, Songlin Li, Lingyan Hao, Bowen Song, Xinyu Hu,
- Abstract要約: VAMPは、フレーム間の色、形状、テクスチャの整合性を評価する外観スコアと、物体の動きのリアリズムを評価する運動スコアの2つの主要コンポーネントで構成されている。
劣化映像評価では, 実ビデオに様々な汚職を導入し, 汚職重大度とVAMPスコアの相関を計測する。
生成されたビデオ評価では、最先端のモデルを用いて、慎重に設計されたプロンプトからビデオを生成し、VAMPのパフォーマンスと人間の評価者のランキングを比較する。
- 参考スコア(独自算出の注目度): 8.102633447488516
- License:
- Abstract: As video generation models advance rapidly, assessing the quality of generated videos has become increasingly critical. Existing metrics, such as Fr\'echet Video Distance (FVD), Inception Score (IS), and ClipSim, measure quality primarily in latent space rather than from a human visual perspective, often overlooking key aspects like appearance and motion consistency to physical laws. In this paper, we propose a novel metric, VAMP (Visual Appearance and Motion Plausibility), that evaluates both the visual appearance and physical plausibility of generated videos. VAMP is composed of two main components: an appearance score, which assesses color, shape, and texture consistency across frames, and a motion score, which evaluates the realism of object movements. We validate VAMP through two experiments: corrupted video evaluation and generated video evaluation. In the corrupted video evaluation, we introduce various types of corruptions into real videos and measure the correlation between corruption severity and VAMP scores. In the generated video evaluation, we use state-of-the-art models to generate videos from carefully designed prompts and compare VAMP's performance to human evaluators' rankings. Our results demonstrate that VAMP effectively captures both visual fidelity and temporal consistency, offering a more comprehensive evaluation of video quality than traditional methods.
- Abstract(参考訳): ビデオ生成モデルが急速に進歩するにつれて、生成されたビデオの品質を評価することがますます重要になっている。
Fr\'echet Video Distance(FVD)、Inception Score(IS)、ClipSim(ClipSim)といった既存のメトリクスは、人間の視覚的視点からではなく、潜時空間における品質を測る。
本稿では、生成した映像の視覚的外観と身体的可視性の両方を評価する新しいメトリクス、VAMP(Visual Outearance and Motion Plausibility)を提案する。
VAMPは、フレーム間の色、形状、テクスチャの整合性を評価する外観スコアと、物体の動きのリアリズムを評価する運動スコアの2つの主要コンポーネントで構成されている。
VAMPを2つの実験により検証する。
劣化映像評価では, 実ビデオに様々な汚職を導入し, 汚職重大度とVAMPスコアの相関を計測する。
生成されたビデオ評価では、最先端のモデルを用いて、慎重に設計されたプロンプトからビデオを生成し、VAMPのパフォーマンスと人間の評価者のランキングを比較する。
以上の結果から,VAMPは視覚的忠実度と時間的整合性の両方を効果的に捉え,従来の手法よりも映像品質をより包括的に評価できることを示した。
関連論文リスト
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [13.368981834953981]
映像生成における動きの整合性を評価することを目的としたFr'echet Video Motion Distanceメトリックを提案する。
具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。
我々は大規模な人間の研究を行い、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。
論文 参考訳(メタデータ) (2024-07-23T02:10:50Z) - Perceptual Video Quality Assessment: A Survey [63.61214597655413]
映像品質評価は,映像処理分野において重要な役割を担っている。
過去20年間に様々な主観的・客観的な映像品質評価研究が実施されてきた。
この調査は、これらのビデオ品質アセスメント研究の最新かつ包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T16:13:52Z) - STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [6.855409699832414]
ビデオ生成モデルは、短いビデオクリップを生成するのに苦労する。
現在のビデオ評価メトリクスは、埋め込みをビデオ埋め込みネットワークに切り替えることによって、画像メトリクスの単純な適応である。
本稿では,空間的側面と時間的側面を独立に評価するために一意に設計された新しいビデオ評価指標STREAMを提案する。
論文 参考訳(メタデータ) (2024-01-30T08:18:20Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - CLiF-VQA: Enhancing Video Quality Assessment by Incorporating High-Level
Semantic Information related to Human Feelings [19.344063056033526]
映像品質評価(VQA)は、人間の視覚システム(HVS)による映像品質の知覚過程をシミュレートすることを目的とする。
現在のVQA研究の大部分は、ビデオの空間的および時間的領域における様々な歪みを捉えることに焦点を当てている。
本稿では,人間の感情と映像の空間的特徴の両方を考慮したCLiF-VQAを提案する。
論文 参考訳(メタデータ) (2023-11-13T05:38:44Z) - Perceptual Quality Assessment of Virtual Reality Videos in the Wild [53.94620993606658]
既存のパノラマビデオデータベースでは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズに制限がある。
我々はVRVQW(VR Video Quality in the Wild)データベースを構築した。
我々は,2つの異なる視聴条件下で,139ドルの被験者から,スキャンパスと品質スコアを記録するための正式な心理物理実験を行った。
論文 参考訳(メタデータ) (2022-06-13T02:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。