論文の概要: What comprises a good talking-head video generation?: A Survey and
Benchmark
- arxiv url: http://arxiv.org/abs/2005.03201v1
- Date: Thu, 7 May 2020 01:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:51:35.781262
- Title: What comprises a good talking-head video generation?: A Survey and
Benchmark
- Title(参考訳): 優れた対話型ビデオ生成とは何か?
アンケート調査とベンチマーク
- Authors: Lele Chen, Guofeng Cui, Ziyi Kou, Haitian Zheng, Chenliang Xu
- Abstract要約: 本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
- 参考スコア(独自算出の注目度): 40.26689818789428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the years, performance evaluation has become essential in computer
vision, enabling tangible progress in many sub-fields. While talking-head video
generation has become an emerging research topic, existing evaluations on this
topic present many limitations. For example, most approaches use human subjects
(e.g., via Amazon MTurk) to evaluate their research claims directly. This
subjective evaluation is cumbersome, unreproducible, and may impend the
evolution of new research. In this work, we present a carefully-designed
benchmark for evaluating talking-head video generation with standardized
dataset pre-processing strategies. As for evaluation, we either propose new
metrics or select the most appropriate ones to evaluate results in what we
consider as desired properties for a good talking-head video, namely, identity
preserving, lip synchronization, high video quality, and natural-spontaneous
motion. By conducting a thoughtful analysis across several state-of-the-art
talking-head generation approaches, we aim to uncover the merits and drawbacks
of current methods and point out promising directions for future work. All the
evaluation code is available at:
https://github.com/lelechen63/talking-head-generation-survey.
- Abstract(参考訳): 長年にわたり、コンピュータビジョンにおいて性能評価が不可欠となり、多くのサブフィールドで目に見える進歩を可能にしてきた。
対話型ビデオ生成は新たな研究課題となっているが,既存の評価には多くの限界がある。
例えば、ほとんどのアプローチでは、人的対象(例えば、Amazon MTurkを介して)を直接的に評価する。
この主観評価は複雑で再現不可能であり、新しい研究の進化を妨げる可能性がある。
そこで本研究では,標準化されたデータセット前処理戦略を用いて,対話型ビデオ生成の評価を行う。
評価については,新たな指標を提案するか,あるいは適切な指標を選択して,良好な対話型ビデオの望ましい特性,すなわちアイデンティティ保持,唇同期,高画質,自然共起運動について評価する。
いくつかの最先端のトーキング・ヘッド・ジェネレーション・アプローチに対して思慮深い分析を行うことで,現在の手法のメリットと欠点を明らかにし,将来的な作業の方向性を指摘する。
すべての評価コードは、https://github.com/lelechen63/talking-head-generation-survey.comで入手できる。
関連論文リスト
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - From Pixels to Portraits: A Comprehensive Survey of Talking Head
Generation Techniques and Applications [3.8301843990331887]
近年のディープラーニングとコンピュータビジョンの進歩は、現実的な話し声を生み出すことへの関心の高まりにつながっている。
私たちはそれらを、画像駆動、オーディオ駆動、ビデオ駆動の4つの主要なアプローチに体系的に分類します。
それぞれの手法の詳細な分析を行い、それぞれの独特な貢献、強み、限界を強調します。
論文 参考訳(メタデータ) (2023-08-30T14:00:48Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。