論文の概要: Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality
- arxiv url: http://arxiv.org/abs/2410.05203v2
- Date: Tue, 8 Oct 2024 17:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:39:03.197662
- Title: Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality
- Title(参考訳): FVDを超えて - ビデオ生成品質評価指標の強化
- Authors: Ge Ya Luo, Gian Mario Favero, Zhi Hao Luo, Alexia Jolicoeur-Martineau, Christopher Pal,
- Abstract要約: Fr't Video Distance (FVD) は、映像の配信品質を評価するために広く採用されている指標である。
解析の結果,(1)膨らませた3D Convnet(I3D)特徴空間の非ガウス性,(2)時間歪みに対するI3D特徴量の非感度,(3)信頼性評価に必要な非現実的なサンプルサイズ,の3つの重要な限界が明らかになった。
- 参考スコア(独自算出の注目度): 8.068194154084967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Fr\'echet Video Distance (FVD) is a widely adopted metric for evaluating video generation distribution quality. However, its effectiveness relies on critical assumptions. Our analysis reveals three significant limitations: (1) the non-Gaussianity of the Inflated 3D Convnet (I3D) feature space; (2) the insensitivity of I3D features to temporal distortions; (3) the impractical sample sizes required for reliable estimation. These findings undermine FVD's reliability and show that FVD falls short as a standalone metric for video generation evaluation. After extensive analysis of a wide range of metrics and backbone architectures, we propose JEDi, the JEPA Embedding Distance, based on features derived from a Joint Embedding Predictive Architecture, measured using Maximum Mean Discrepancy with polynomial kernel. Our experiments on multiple open-source datasets show clear evidence that it is a superior alternative to the widely used FVD metric, requiring only 16% of the samples to reach its steady value, while increasing alignment with human evaluation by 34%, on average.
- Abstract(参考訳): Fr'echet Video Distance (FVD) は、ビデオ生成の配信品質を評価するために広く採用されている指標である。
しかし、その効果は批判的な仮定に依存している。
解析の結果,(1)膨らませた3D Convnet(I3D)特徴空間の非ガウス性,(2)時間歪みに対するI3D特徴量の非感度,(3)信頼性評価に必要な非現実的なサンプルサイズ,の3つの重要な限界が明らかになった。
これらの結果はFVDの信頼性を損なうものであり、FVDはビデオ生成評価のためのスタンドアロンの指標として不足していることを示している。
幅広いメトリクスやバックボーンアーキテクチャを幅広く分析した後,JEPA Embedding Distance (JEPA Embedding Distance) を提案する。
複数のオープンソースデータセットに対する実験は、広く使われているFVD測定値よりも優れた代替手段であることを示すとともに、サンプルの16%しか安定した値に到達できず、平均して34%の人的評価値との整合性を高めていることを示す。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - CatFree3D: Category-agnostic 3D Object Detection with Diffusion [63.75470913278591]
本稿では,2次元検出と深度予測から3次元検出を分離するパイプラインを提案する。
また,3次元検出結果の正確な評価のために,正規化ハンガリー距離(NHD)指標も導入した。
論文 参考訳(メタデータ) (2024-08-22T22:05:57Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - On the Content Bias in Fréchet Video Distance [42.717821654744796]
Fr'echet Video Distance (FVD)は、ビデオ生成モデルを評価するための重要な指標である。
本稿では,時間的リアリズムよりもフレーム単位の品質に対するFVDの偏りについて検討する。
近年の大規模自己監督型ビデオモデルから抽出された特徴を持つFVDは画質に偏りが小さいことを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:58Z) - Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。
10種類の3Dデータセットにわたる28の最先端モデルを評価した。
本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文 参考訳(メタデータ) (2024-03-25T17:59:59Z) - STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [6.855409699832414]
ビデオ生成モデルは、短いビデオクリップを生成するのに苦労する。
現在のビデオ評価メトリクスは、埋め込みをビデオ埋め込みネットワークに切り替えることによって、画像メトリクスの単純な適応である。
本稿では,空間的側面と時間的側面を独立に評価するために一意に設計された新しいビデオ評価指標STREAMを提案する。
論文 参考訳(メタデータ) (2024-01-30T08:18:20Z) - Activating Frequency and ViT for 3D Point Cloud Quality Assessment
without Reference [0.49157446832511503]
与えられた3D-PCの非参照品質指標を提案する。
入力属性を品質スコアにマップするには、Deformable Convolutional Network(DCN)とViT(ViT)を組み合わせた軽量ハイブリッドディープモデルを用いる。
その結果,本手法は現在のNR-PCQA測度やPointXRのFR-PCQAよりも優れていた。
論文 参考訳(メタデータ) (2023-12-10T19:13:34Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - From 2D to 3D: Re-thinking Benchmarking of Monocular Depth Prediction [80.67873933010783]
我々は,MDPが現在,3Dアプリケーションにおける予測の有用性を評価するのに有効な指標に頼っていることを論じる。
これにより、2Dベースの距離を最適化するのではなく、シーンの3D構造を正確に認識し、推定に向けて改善する新しい手法の設計と開発が制限される。
本稿では,MDP手法の3次元幾何評価に適した指標セットと,提案手法に不可欠な室内ベンチマークRIO-D3Dを提案する。
論文 参考訳(メタデータ) (2022-03-15T17:50:54Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。