Fugu-MT 論文翻訳(概要): From Pixels to Portraits: A Comprehensive Survey of Talking Head Generation Techniques and Applications

論文の概要: From Pixels to Portraits: A Comprehensive Survey of Talking Head Generation Techniques and Applications

arxiv url: http://arxiv.org/abs/2308.16041v1
Date: Wed, 30 Aug 2023 14:00:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 13:13:26.120052
Title: From Pixels to Portraits: A Comprehensive Survey of Talking Head Generation Techniques and Applications
Title（参考訳）: PixelsからPortraits:トーキングヘッド生成技術と応用に関する総合的な調査
Authors: Shreyank N Gowda, Dheeraj Pandey, Shashank Narayana Gowda
Abstract要約: 近年のディープラーニングとコンピュータビジョンの進歩は、現実的な話し声を生み出すことへの関心の高まりにつながっている。私たちはそれらを、画像駆動、オーディオ駆動、ビデオ駆動の4つの主要なアプローチに体系的に分類します。それぞれの手法の詳細な分析を行い、それぞれの独特な貢献、強み、限界を強調します。
参考スコア（独自算出の注目度）: 3.8301843990331887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in deep learning and computer vision have led to a surge of interest in generating realistic talking heads. This paper presents a comprehensive survey of state-of-the-art methods for talking head generation. We systematically categorises them into four main approaches: image-driven, audio-driven, video-driven and others (including neural radiance fields (NeRF), and 3D-based methods). We provide an in-depth analysis of each method, highlighting their unique contributions, strengths, and limitations. Furthermore, we thoroughly compare publicly available models, evaluating them on key aspects such as inference time and human-rated quality of the generated outputs. Our aim is to provide a clear and concise overview of the current landscape in talking head generation, elucidating the relationships between different approaches and identifying promising directions for future research. This survey will serve as a valuable reference for researchers and practitioners interested in this rapidly evolving field.
Abstract（参考訳）: ディープラーニングとコンピュータビジョンの最近の進歩は、現実的な話のヘッドを生み出すことへの関心の高まりをもたらした。本稿では,音声ヘッド生成のための最先端手法に関する包括的調査を行う。画像駆動、オーディオ駆動、ビデオ駆動、その他(nerf(neural radiance fields)や3dベースのメソッドを含む)4つの主要なアプローチに体系的に分類しています。各メソッドの詳細な分析を行い,そのユニークな貢献,長所,限界を強調する。さらに,公開モデルを徹底的に比較し,推定時間や生成した出力の質評価といった重要な側面で評価した。本研究の目的は,話し手生成における現状を明確かつ簡潔に概観し,異なるアプローチ間の関係を解明し,今後の研究に期待できる方向を特定することである。この調査は、この急速に発展する分野に関心を持つ研究者や実践者にとって貴重な参考となるだろう。

関連論文リスト

Advancing Talking Head Generation: A Comprehensive Survey of Multi-Modal Methodologies, Datasets, Evaluation Metrics, and Loss Functions [0.0]
トーキングヘッドジェネレーション (THG) はコンピュータビジョンにおけるトランスフォーメーション技術として登場した。本稿では,音声音声生成のための方法論とフレームワークについて概観する。この研究は、事前訓練されたモデルへの依存、極端なポーズハンドリング、多言語合成、時間的一貫性といった課題を特定する。
論文参考訳（メタデータ） (2025-06-23T06:49:42Z)
A Survey of Automatic Evaluation Methods on Text, Visual and Speech Generations [58.105900601078595]
本稿では,3つのモダリティすべてにまたがる生成コンテンツの自動評価手法の総合的なレビューと統合分類について述べる。本分析は,最も成熟したテキスト生成手法の評価から開始する。次に、このフレームワークを画像およびオーディオ生成に拡張し、その幅広い適用性を示す。
論文参考訳（メタデータ） (2025-06-06T11:09:46Z)
Towards Visual Grounding: A Survey [99.0950608237702]
Referring Expression や Phrase Grounding としても知られる Visual Grounding は、与えられた式テキストに基づいてイメージ内の特定の領域をグラウンドすることを目的としている。 2021年以降、視覚的な接地は大幅に進歩し、接地事前訓練のような新しい概念が生まれている。本稿では,視覚的グラウンドリングの分野で現在利用可能な,最も包括的な概要を示す。
論文参考訳（メタデータ） (2024-12-28T16:34:35Z)
Event-based Stereo Depth Estimation: A Survey [12.711235562366898]
ステレオプシスは、生物が私たちの3D世界をナビゲートする深度を知覚する主要な方法であるため、ロボット工学において広くアピールされている。イベントカメラは、非常に高時間分解能と高ダイナミックレンジで、ピクセルごとの明るさ変化を非同期に検出する、バイオインスパイアされた新しいセンサーである。高度の時間精度もステレオマッチングの恩恵を受けており、イベントカメラが登場して以来の一般的な研究領域として不透明度(深度)が評価されている。
論文参考訳（メタデータ） (2024-09-26T09:43:50Z)
A Comprehensive Taxonomy and Analysis of Talking Head Synthesis: Techniques for Portrait Generation, Driving Mechanisms, and Editing [8.171572460041823]
トーキングヘッド合成は、特定のコンテンツによって駆動される静止画像からポートレートビデオを生成する高度な方法である。本調査は,3つの重要な領域 – ポートレート生成,駆動機構,編集技術 – に分類し,その技術を体系的にレビューする。
論文参考訳（メタデータ） (2024-06-15T08:14:59Z)
Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文参考訳（メタデータ） (2024-05-13T14:44:22Z)
Deepfake Generation and Detection: A Benchmark and Survey [134.19054491600832]
Deepfakeは、特定の条件下で非常にリアルな顔画像やビデオを作成するための技術だ。この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。本研究では, 顔交換, 顔再現, 話し顔生成, 顔属性編集の4つの代表的なディープフェイク分野の研究に焦点をあてる。
論文参考訳（メタデータ） (2024-03-26T17:12:34Z)
A Comparative Study of Perceptual Quality Metrics for Audio-driven Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文参考訳（メタデータ） (2024-03-11T04:13:38Z)
Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文参考訳（メタデータ） (2022-10-05T13:14:57Z)
Neural Fields in Visual Computing and Beyond [54.950885364735804]
機械学習の最近の進歩は、座標ベースニューラルネットワークを用いた視覚コンピューティング問題の解決への関心が高まっている。ニューラルネットワークは、3D形状と画像の合成、人体のアニメーション、3D再構成、ポーズ推定に成功している。本報告は、文脈、数学的基礎、および、ニューラルネットワークに関する文献の広範なレビューを提供する。
論文参考訳（メタデータ） (2021-11-22T18:57:51Z)
Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。 2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文参考訳（メタデータ） (2021-04-23T11:07:07Z)
Deep Gait Recognition: A Survey [15.47582611826366]
歩行認識は、歩き方に基づいて個人を識別することを目的とした魅力的な生体測定モダリティです。ディープラーニングは、差別的な表現を自動的に学習する能力によって、2015年からこの分野の研究環境を再構築した。深層学習による歩行認識のブレークスルーと最近の展開を総合的に紹介します。
論文参考訳（メタデータ） (2021-02-18T18:49:28Z)
What comprises a good talking-head video generation?: A Survey and Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文参考訳（メタデータ） (2020-05-07T01:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。