論文の概要: THEval. Evaluation Framework for Talking Head Video Generation
- arxiv url: http://arxiv.org/abs/2511.04520v1
- Date: Thu, 06 Nov 2025 16:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.504828
- Title: THEval. Evaluation Framework for Talking Head Video Generation
- Title(参考訳): 対話型ヘッドビデオ生成のための話題評価フレームワーク
- Authors: Nabyl Quignon, Baptiste Chopin, Yaohui Wang, Antitza Dantcheva,
- Abstract要約: 本研究では,3次元品質,(ii)自然性,(iii)同期性に関連する8つの指標からなる新しい評価枠組みを提案する。
メトリクスを選択する際には、効率を重視し、人間の好みに合わせています。
17の最先端モデルで生成された85,000本の動画を実験したところ、多くのアルゴリズムが唇の同期に優れている一方で、表現力や人工物のない細部を生成するという課題に直面していることが示唆された。
- 参考スコア(独自算出の注目度): 12.808033361725707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation has achieved remarkable progress, with generated videos increasingly resembling real ones. However, the rapid advance in generation has outpaced the development of adequate evaluation metrics. Currently, the assessment of talking head generation primarily relies on limited metrics, evaluating general video quality, lip synchronization, and on conducting user studies. Motivated by this, we propose a new evaluation framework comprising 8 metrics related to three dimensions (i) quality, (ii) naturalness, and (iii) synchronization. In selecting the metrics, we place emphasis on efficiency, as well as alignment with human preferences. Based on this considerations, we streamline to analyze fine-grained dynamics of head, mouth, and eyebrows, as well as face quality. Our extensive experiments on 85,000 videos generated by 17 state-of-the-art models suggest that while many algorithms excel in lip synchronization, they face challenges with generating expressiveness and artifact-free details. These videos were generated based on a novel real dataset, that we have curated, in order to mitigate bias of training data. Our proposed benchmark framework is aimed at evaluating the improvement of generative methods. Original code, dataset and leaderboards will be publicly released and regularly updated with new methods, in order to reflect progress in the field.
- Abstract(参考訳): ビデオ生成は目覚ましい進歩を遂げ、生成したビデオは実物に近づきつつある。
しかし、世代が急速に進歩したことにより、適切な評価指標の開発が加速した。
現在,音声ヘッド生成の評価は,ビデオ品質,リップ同期,ユーザ研究の実施など,限られた指標に大きく依存している。
そこで我々は,3次元に関する8つの指標からなる新しい評価枠組みを提案する。
(i)品質、
(二)自然性、及び
(三)同期。
メトリクスを選択する際には、効率を重視し、人間の好みに合わせています。
この考察に基づいて,顔の質だけでなく,頭部,口,まぶたの細粒度動態の解析を効率化する。
17の最先端モデルによって生成された85,000のビデオに関する大規模な実験では、多くのアルゴリズムがリップ同期に優れているが、表現力と人工物のない詳細を生成するという課題に直面していることが示唆された。
これらのビデオは、トレーニングデータのバイアスを軽減するために、私たちがキュレートした新しいリアルデータセットに基づいて生成されました。
提案するベンチマークフレームワークは,生成手法の改良を評価することを目的としている。
オリジナルのコード、データセット、リーダーボードは、フィールドの進捗を反映するために、公開され、新しいメソッドで定期的に更新される。
関連論文リスト
- Video-Bench: Human-Aligned Video Generation Benchmark [26.31594706735867]
生成モデルが視覚的にリアルで高品質なビデオを生成することを保証するためには、ビデオ生成アセスメントが不可欠である。
本稿では,豊富なプロンプトスイートと広範囲な評価次元を備えた総合的なベンチマークであるVideo-Benchを紹介する。
Soraを含む先進的なモデルの実験は、ビデオベンチがあらゆる次元にわたる人間の好みと優れた整合性を達成することを示した。
論文 参考訳(メタデータ) (2025-04-07T10:32:42Z) - What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。
説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。
実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T07:04:55Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。