Fugu-MT 論文翻訳(概要): GaussianSpeech: Audio-Driven Gaussian Avatars

論文の概要: GaussianSpeech: Audio-Driven Gaussian Avatars

arxiv url: http://arxiv.org/abs/2411.18675v1
Date: Wed, 27 Nov 2024 18:54:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.60832
Title: GaussianSpeech: Audio-Driven Gaussian Avatars
Title（参考訳）: GaussianSpeech: オーディオ駆動型ガウスアバター
Authors: Shivangi Aneja, Artem Sevastopolsky, Tobias Kirschstein, Justus Thies, Angela Dai, Matthias Nießner,
Abstract要約: 本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
参考スコア（独自算出の注目度）: 76.10163891172192
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce GaussianSpeech, a novel approach that synthesizes high-fidelity animation sequences of photo-realistic, personalized 3D human head avatars from spoken audio. To capture the expressive, detailed nature of human heads, including skin furrowing and finer-scale facial movements, we propose to couple speech signal with 3D Gaussian splatting to create realistic, temporally coherent motion sequences. We propose a compact and efficient 3DGS-based avatar representation that generates expression-dependent color and leverages wrinkle- and perceptually-based losses to synthesize facial details, including wrinkles that occur with different expressions. To enable sequence modeling of 3D Gaussian splats with audio, we devise an audio-conditioned transformer model capable of extracting lip and expression features directly from audio input. Due to the absence of high-quality datasets of talking humans in correspondence with audio, we captured a new large-scale multi-view dataset of audio-visual sequences of talking humans with native English accents and diverse facial geometry. GaussianSpeech consistently achieves state-of-the-art performance with visually natural motion at real time rendering rates, while encompassing diverse facial expressions and styles.
Abstract（参考訳）: 本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。そこで本研究では,3次元ガウシアンスプラッティングを用いた音声信号を用いて,現実的かつ時間的に整合した動き系列を生成することを提案する。本稿では,表情に依存した色を生成する3DGSに基づくコンパクトで効率的なアバター表現を提案する。音声による3次元ガウスプレートのシーケンスモデリングを実現するため,音声入力から直接唇や表情の特徴を抽出できる音調和トランスフォーマモデルを開発した。音声と対話する人間の高品質なデータセットがないため、母国英語アクセントと多様な顔形状を持つ人間の音声・視覚的シーケンスの大規模マルチビューデータセットを新たに取得した。 GaussianSpeechは、さまざまな表情とスタイルを包含しながら、リアルタイムのレンダリングレートで視覚的に自然な動きを持つ最先端のパフォーマンスを一貫して達成する。

関連論文リスト

ScaffoldAvatar: High-Fidelity Gaussian Avatars with Patch Expressions [49.34398022152462]
局所的に定義した表情と3Dガウススプラッティングを組み合わせて,超高忠実度,表現性,フォトリアリスティックな3D頭部アバターを作成することを提案する。特に、パッチベースの幾何学的3次元顔モデルを用いて、パッチ表現を抽出し、それらを局所的なダイナミックスキンの外観や動きに変換する方法を学ぶ。我々は,高解像度の3Kトレーニング画像に対して,高画質な結果とより高速なコンバージェンスを得るために,カラーベースデンシフィケーションとプログレッシブトレーニングを採用している。
論文参考訳（メタデータ） (2025-07-14T17:59:03Z)
Supervising 3D Talking Head Avatars with Analysis-by-Audio-Synthesis [44.503709089687014]
本稿では,3次元対話型アバターフレームワークTHUNDERを提案する。 THUNDERは、多彩で高品質で表現力のある表情のアニメーションを生成できる一方で、会話ヘッドアバターのリップシンクの質を著しく向上させることを示した。
論文参考訳（メタデータ） (2025-04-18T00:24:52Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
GaussianTalker: Speaker-specific Talking Head Synthesis via 3D Gaussian Splatting [27.699313086744237]
GaussianTalkerは3D Gaussian Splattingに基づく音声駆動音声ヘッド合成手法である。話者固有のモーショントランスレータは、普遍化音声特徴抽出により、対象話者固有の正確な唇の動きを達成する。 Dynamic Gaussian Rendererは話者固有のBlendShapesを導入し、潜在ポーズを通じて顔の詳細表現を強化する。
論文参考訳（メタデータ） (2024-04-22T09:51:43Z)
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文参考訳（メタデータ） (2023-12-13T19:01:07Z)
Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文参考訳（メタデータ） (2023-02-24T09:36:31Z)
Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。本稿では,音声による表情合成手法であるImitatorについて述べる。提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文参考訳（メタデータ） (2022-12-30T19:00:02Z)
A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文参考訳（メタデータ） (2022-05-02T13:57:50Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。