論文の概要: OSM-Net: One-to-Many One-shot Talking Head Generation with Spontaneous
Head Motions
- arxiv url: http://arxiv.org/abs/2309.16148v1
- Date: Thu, 28 Sep 2023 03:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 16:08:57.145823
- Title: OSM-Net: One-to-Many One-shot Talking Head Generation with Spontaneous
Head Motions
- Title(参考訳): OSM-Net:1対1の対話型ヘッドジェネレーション
- Authors: Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong
Han
- Abstract要約: ワンショット音声ヘッド生成は、明示的な頭部運動参照を持たない。
我々は,自然な頭部動作を持つテキスト・ツー・マニア・ワンショット・トーキング・ヘッド・ジェネレーション・ネットワークであるOSM-Netを提案する。
- 参考スコア(独自算出の注目度): 14.220727407255966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot talking head generation has no explicit head movement reference,
thus it is difficult to generate talking heads with head motions. Some existing
works only edit the mouth area and generate still talking heads, leading to
unreal talking head performance. Other works construct one-to-one mapping
between audio signal and head motion sequences, introducing ambiguity
correspondences into the mapping since people can behave differently in head
motions when speaking the same content. This unreasonable mapping form fails to
model the diversity and produces either nearly static or even exaggerated head
motions, which are unnatural and strange. Therefore, the one-shot talking head
generation task is actually a one-to-many ill-posed problem and people present
diverse head motions when speaking. Based on the above observation, we propose
OSM-Net, a \textit{one-to-many} one-shot talking head generation network with
natural head motions. OSM-Net constructs a motion space that contains rich and
various clip-level head motion features. Each basis of the space represents a
feature of meaningful head motion in a clip rather than just a frame, thus
providing more coherent and natural motion changes in talking heads. The
driving audio is mapped into the motion space, around which various motion
features can be sampled within a reasonable range to achieve the one-to-many
mapping. Besides, the landmark constraint and time window feature input improve
the accurate expression feature extraction and video generation. Extensive
experiments show that OSM-Net generates more natural realistic head motions
under reasonable one-to-many mapping paradigm compared with other methods.
- Abstract(参考訳): ワンショット発声頭部生成には明示的な頭部運動基準がないため,頭部運動を伴う発声頭部の生成は困難である。
既存の作品の中には口の部分のみを編集し、まだ話している頭を生成するものもあり、非現実的な頭のパフォーマンスをもたらす。
他の作品では、音声信号と頭部の動きシーケンスを1対1でマッピングし、同じコンテンツを話すときに頭の動きが異なる振る舞いをすることができるため、アンビグニティ対応をマッピングに導入している。
この不合理なマッピング形式は多様性のモデル化に失敗し、ほぼ静的あるいは誇張された頭の動きを生み出します。
したがって、1対1の会話ヘッド生成タスクは実際には1対多の不適切な問題であり、発話時の多様な頭の動きを示す。
上記の観察に基づいて, 自然な頭部運動を持つ一発一発対話型頭部生成ネットワークである osm-net を提案する。
OSM-Netは、リッチで様々なクリップレベルのヘッドモーション機能を含むモーションスペースを構築する。
空間の各基底は、フレームではなくクリップ内で有意義な頭の動きの特徴を表しており、これにより、話す頭の中でよりコヒーレントで自然な動きの変化をもたらす。
駆動音声は動き空間にマッピングされ、周囲の様々な動き特徴を適切な範囲でサンプリングして1対多のマッピングを実現する。
さらに、ランドマーク制約と時間ウィンドウ特徴入力により、正確な表現特徴抽出とビデオ生成が改善される。
広範な実験により、osm-netは他の手法と比較して合理的な一対多マッピングパラダイムの下でより自然な頭の動きを生成することが示された。
関連論文リスト
- FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - FONT: Flow-guided One-shot Talking Head Generation with Natural Head
Motions [14.205344055665414]
フロー誘導ワンショットモデルは生成した音声の頭上でのNaTuralヘッドの動きを達成する。
ヘッドポーズ予測モジュールは、ソース顔からヘッドポーズシーケンスを生成し、オーディオを駆動するように設計されている。
論文 参考訳(メタデータ) (2023-03-31T03:25:06Z) - DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions [21.064765388027727]
DisCoHeadは、ヘッドポーズと顔の表情を監督なしで切り離し、制御する新しい方法である。
DisCoHeadは、リアルな音声およびビデオ駆動音声ヘッドを生成し、最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-03-14T08:22:18Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Talking-head Generation with Rhythmic Head Motion [46.6897675583319]
本稿では,ハイブリッド埋め込みモジュールと非線形合成モジュールを備えた3次元認識型生成ネットワークを提案する。
提案手法は, 自然な頭部運動を伴う制御可能, フォトリアリスティック, 時間的コヒーレントなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2020-07-16T18:13:40Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。