論文の概要: From Pixels to Portraits: A Comprehensive Survey of Talking Head
Generation Techniques and Applications
- arxiv url: http://arxiv.org/abs/2308.16041v1
- Date: Wed, 30 Aug 2023 14:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:13:26.120052
- Title: From Pixels to Portraits: A Comprehensive Survey of Talking Head
Generation Techniques and Applications
- Title(参考訳): PixelsからPortraits:トーキングヘッド生成技術と応用に関する総合的な調査
- Authors: Shreyank N Gowda, Dheeraj Pandey, Shashank Narayana Gowda
- Abstract要約: 近年のディープラーニングとコンピュータビジョンの進歩は、現実的な話し声を生み出すことへの関心の高まりにつながっている。
私たちはそれらを、画像駆動、オーディオ駆動、ビデオ駆動の4つの主要なアプローチに体系的に分類します。
それぞれの手法の詳細な分析を行い、それぞれの独特な貢献、強み、限界を強調します。
- 参考スコア(独自算出の注目度): 3.8301843990331887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in deep learning and computer vision have led to a surge
of interest in generating realistic talking heads. This paper presents a
comprehensive survey of state-of-the-art methods for talking head generation.
We systematically categorises them into four main approaches: image-driven,
audio-driven, video-driven and others (including neural radiance fields (NeRF),
and 3D-based methods). We provide an in-depth analysis of each method,
highlighting their unique contributions, strengths, and limitations.
Furthermore, we thoroughly compare publicly available models, evaluating them
on key aspects such as inference time and human-rated quality of the generated
outputs. Our aim is to provide a clear and concise overview of the current
landscape in talking head generation, elucidating the relationships between
different approaches and identifying promising directions for future research.
This survey will serve as a valuable reference for researchers and
practitioners interested in this rapidly evolving field.
- Abstract(参考訳): ディープラーニングとコンピュータビジョンの最近の進歩は、現実的な話のヘッドを生み出すことへの関心の高まりをもたらした。
本稿では,音声ヘッド生成のための最先端手法に関する包括的調査を行う。
画像駆動、オーディオ駆動、ビデオ駆動、その他(nerf(neural radiance fields)や3dベースのメソッドを含む)4つの主要なアプローチに体系的に分類しています。
各メソッドの詳細な分析を行い,そのユニークな貢献,長所,限界を強調する。
さらに,公開モデルを徹底的に比較し,推定時間や生成した出力の質評価といった重要な側面で評価した。
本研究の目的は,話し手生成における現状を明確かつ簡潔に概観し,異なるアプローチ間の関係を解明し,今後の研究に期待できる方向を特定することである。
この調査は、この急速に発展する分野に関心を持つ研究者や実践者にとって貴重な参考となるだろう。
関連論文リスト
- A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Deep Learning Technique for Human Parsing: A Survey and Outlook [5.236995853909988]
本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。
我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。
この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
論文 参考訳(メタデータ) (2023-01-01T12:39:57Z) - Human Image Generation: A Comprehensive Survey [60.63589576693112]
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴は、モデルアーキテクチャと入出力要求の観点から要約される。
幅広い応用可能性のために、合成された人間の画像の典型的なダウンストリーム利用、すなわち、個人認識タスクのためのデータ拡張と、ファッション顧客のためのバーチャルトライオンの2つがカバーされている。
論文 参考訳(メタデータ) (2022-12-17T15:19:45Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - Neural Fields in Visual Computing and Beyond [54.950885364735804]
機械学習の最近の進歩は、座標ベースニューラルネットワークを用いた視覚コンピューティング問題の解決への関心が高まっている。
ニューラルネットワークは、3D形状と画像の合成、人体のアニメーション、3D再構成、ポーズ推定に成功している。
本報告は、文脈、数学的基礎、および、ニューラルネットワークに関する文献の広範なレビューを提供する。
論文 参考訳(メタデータ) (2021-11-22T18:57:51Z) - Visually grounded models of spoken language: A survey of datasets,
architectures and evaluation techniques [15.906959137350247]
この調査は、過去20年間の音声言語の視覚的接地モデルの進化の概要を提供する。
我々は、この研究の多くを可能にした中心的な研究課題、開発スケジュール、データセットについて論じる。
論文 参考訳(メタデータ) (2021-04-27T14:32:22Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Deep Gait Recognition: A Survey [15.47582611826366]
歩行認識は、歩き方に基づいて個人を識別することを目的とした魅力的な生体測定モダリティです。
ディープラーニングは、差別的な表現を自動的に学習する能力によって、2015年からこの分野の研究環境を再構築した。
深層学習による歩行認識のブレークスルーと最近の展開を総合的に紹介します。
論文 参考訳(メタデータ) (2021-02-18T18:49:28Z) - The Elements of End-to-end Deep Face Recognition: A Survey of Recent
Advances [56.432660252331495]
顔認識はコンピュータビジョンにおいて最も人気があり、長く続いたトピックの1つである。
ディープフェイス認識は目覚ましい進歩を遂げ、多くの現実世界のアプリケーションで広く利用されている。
本稿では,各要素の最近の進歩を概観する。
論文 参考訳(メタデータ) (2020-09-28T13:02:17Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。