論文の概要: World Consistency Score: A Unified Metric for Video Generation Quality
- arxiv url: http://arxiv.org/abs/2508.00144v1
- Date: Thu, 31 Jul 2025 20:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.662787
- Title: World Consistency Score: A Unified Metric for Video Generation Quality
- Title(参考訳): World Consistency Score:ビデオ生成品質の統一指標
- Authors: Akshat Rakheja, Aarsh Ashdhir, Aryan Bhattacharjee, Vanshika Sharma,
- Abstract要約: WCS(World Consistency Score)は、生成ビデオモデルのための新しい統一評価指標である。
WCSは、オブジェクト永続性、安定性の関係、因果コンプライアンス、フリックペナルティの4つの解釈可能なサブコンポーネントを統合している。
既存のビデオ評価指標の文脈において、WCSの動機を詳述し、各サブメトリックを定式化し、WCSの組み合わせの重み付けがどのように訓練されているかを説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce World Consistency Score (WCS), a novel unified evaluation metric for generative video models that emphasizes internal world consistency of the generated videos. WCS integrates four interpretable sub-components - object permanence, relation stability, causal compliance, and flicker penalty - each measuring a distinct aspect of temporal and physical coherence in a video. These submetrics are combined via a learned weighted formula to produce a single consistency score that aligns with human judgments. We detail the motivation for WCS in the context of existing video evaluation metrics, formalize each submetric and how it is computed with open-source tools (trackers, action recognizers, CLIP embeddings, optical flow), and describe how the weights of the WCS combination are trained using human preference data. We also outline an experimental validation blueprint: using benchmarks like VBench-2.0, EvalCrafter, and LOVE to test WCS's correlation with human evaluations, performing sensitivity analyses, and comparing WCS against established metrics (FVD, CLIPScore, VBench, FVMD). The proposed WCS offers a comprehensive and interpretable framework for evaluating video generation models on their ability to maintain a coherent "world" over time, addressing gaps left by prior metrics focused only on visual fidelity or prompt alignment.
- Abstract(参考訳): WCS(World Consistency Score)は、生成したビデオの内部の一貫性を強調する、生成ビデオモデルのための新しい統一評価指標である。
WCSは、オブジェクト永続性、関係安定性、因果コンプライアンス、フリックペナルティの4つの解釈可能なサブコンポーネントを統合している。
これらのサブメトリックは、学習された重み付け式を介して組み合わせられ、人間の判断と一致した単一の一貫性スコアを生成する。
既存のビデオ評価指標の文脈において、WCSの動機について詳述し、各サブメトリックを形式化し、オープンソースツール(トラッカー、アクション認識器、CLIP埋め込み、光フロー)でどのように計算されるかを説明し、WCSの組み合わせの重みが人間の好みデータを用いてどのようにトレーニングされるかを説明する。
VBench-2.0、EvalCrafter、LOVEなどのベンチマークを使用して、WCSと人間の評価との相関をテストし、感度分析を行い、WCSを既存のメトリクス(FVD、CLIPScore、VBench、FVMD)と比較する。
提案したWCSは、ビデオ生成モデルを評価するための包括的で解釈可能なフレームワークを提供し、時間とともにコヒーレントな"世界"を維持し、視覚的忠実さや迅速なアライメントのみに焦点を当てた以前のメトリクスによって残されたギャップに対処する。
関連論文リスト
- EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文 参考訳(メタデータ) (2025-06-05T17:44:12Z) - Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance [8.216807467478281]
テキストと画像の合成を評価することは、確立されたメトリクスと人間の嗜好の相違により困難である。
視覚的忠実度とテキストプロンプトアライメントの両方を考慮に入れた指標であるcFreDを提案する。
本研究は,テキスト・ツー・イメージ・モデルの体系的評価のための,堅牢で将来性の高い指標として,cFreDを検証した。
論文 参考訳(メタデータ) (2025-03-27T17:35:14Z) - G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o [15.929657348606018]
G-VEvalはG-Evalにインスパイアされた新しい測度であり、新しい GPT-4o で駆動される。
G-VEvalは、大規模なマルチモーダルモデルでチェーン・オブ・シント推論を使用しており、参照フリー、参照オンリー、組み合わせの3つのモードをサポートしている。
また,ビデオキャプション評価のための新しいデータセットであるMSVD-Evalを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:23:12Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning [15.363132825156477]
大規模視覚言語モデル(LVLM)の評価に適した人中心ベンチマークであるFIOVAを紹介する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
本稿では,アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores [18.26082503192707]
PEAVS(Perceptual Evaluation of Audio-Visual Synchrony)スコアは,音声-視覚同期の質を評価する5点尺度を備えた新しい自動測定値である。
実験では、Fr'eche'tをベースとしたオーディオ・ビジュアル同期の自然な拡張に対して、相対的な50%のゲインを観測した。
論文 参考訳(メタデータ) (2024-04-10T20:32:24Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Context Sensing Attention Network for Video-based Person
Re-identification [20.865710012336724]
ビデオフレームに様々な干渉が存在するため、ReID(Video-based person re-identification)は困難である。
近年のアプローチでは、時間的集約戦略を用いてこの問題に対処している。
フレームの特徴抽出と時間的集約の両方を改善する新しいコンテキストセンシング注意ネットワーク(CSA-Net)を提案する。
論文 参考訳(メタデータ) (2022-07-06T12:48:27Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。