論文の概要: ScanTalk: 3D Talking Heads from Unregistered Scans
- arxiv url: http://arxiv.org/abs/2403.10942v1
- Date: Sat, 16 Mar 2024 14:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:56:18.179281
- Title: ScanTalk: 3D Talking Heads from Unregistered Scans
- Title(参考訳): ScanTalk: 登録されていないスカンの3Dトーキングヘッド
- Authors: Federico Nocentini, Thomas Besnier, Claudio Ferrari, Sylvain Arguillere, Stefano Berretti, Mohamed Daoudi,
- Abstract要約: ScanTalkは、スキャンされたデータを含む任意のトポロジで3D顔をアニメーションできるフレームワークである。
我々のアプローチは、固定トポロジ制約を克服するために、DiffusionNetアーキテクチャに依存しています。
結果を再生成するためのコードと、事前トレーニングされたモデルが利用可能になります。
- 参考スコア(独自算出の注目度): 13.003073077799835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D talking heads generation has emerged as a significant area of interest among researchers, presenting numerous challenges. Existing methods are constrained by animating faces with fixed topologies, wherein point-wise correspondence is established, and the number and order of points remains consistent across all identities the model can animate. In this work, we present ScanTalk, a novel framework capable of animating 3D faces in arbitrary topologies including scanned data. Our approach relies on the DiffusionNet architecture to overcome the fixed topology constraint, offering promising avenues for more flexible and realistic 3D animations. By leveraging the power of DiffusionNet, ScanTalk not only adapts to diverse facial structures but also maintains fidelity when dealing with scanned data, thereby enhancing the authenticity and versatility of generated 3D talking heads. Through comprehensive comparisons with state-of-the-art methods, we validate the efficacy of our approach, demonstrating its capacity to generate realistic talking heads comparable to existing techniques. While our primary objective is to develop a generic method free from topological constraints, all state-of-the-art methodologies are bound by such limitations. Code for reproducing our results, and the pre-trained model will be made available.
- Abstract(参考訳): 音声駆動の3D音声ヘッド生成は、研究者の間で重要な関心領域として現れており、多くの課題が提示されている。
既存の方法は、点対応が確立された固定位相の顔のアニメーションによって制約され、そのモデルがアニメーションできるすべてのアイデンティティにおいて、点の数と順序は一貫して保持される。
本研究では,スキャンデータを含む任意のトポロジで3次元顔をアニメーションできる新しいフレームワークであるScanTalkを提案する。
我々のアプローチは、固定トポロジ制約を克服するためにDiffusionNetアーキテクチャに依存しており、より柔軟でリアルな3Dアニメーションのための有望な道を提供する。
DiffusionNetのパワーを活用することで、ScanTalkは多様な顔構造に適応するだけでなく、スキャンされたデータを扱う際の忠実さも維持し、生成された3D音声ヘッドの信頼性と汎用性を向上させる。
本研究では,最先端手法との総合的な比較を通じて,既存の手法に匹敵する現実的な話し声を生成する能力を示すとともに,アプローチの有効性を検証した。
我々の主な目的は、トポロジカル制約のない汎用的な手法を開発することであるが、最先端の方法論はすべてそのような制約によって拘束されている。
結果を再生成するためのコードと、事前トレーニングされたモデルが利用可能になります。
関連論文リスト
- NeRFFaceSpeech: One-shot Audio-diven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance
Fields [97.63648347686456]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose
Generation via Diffusion Models [25.515240381570013]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
推論中、音声とスタイルに基づいて生成過程を案内するために分類器なし指導を用いる。
また,高品質な音声視覚データセットから再構成された3DMMパラメータのモデルをトレーニングすることで,3D音声データ不足にも対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - SCoDA: Domain Adaptive Shape Completion for Real Scans [78.92028595499245]
点雲からの3D形状の完成は、特に現実世界のオブジェクトのスキャンによる難しい作業である。
合成データから実スキャン形状完了の領域適応のための新しいタスクであるSCoDAを提案する。
本稿では,知識伝達のための新しいクロスドメイン機能融合手法と,実データからの堅牢な学習のための新しいボリューム一貫性の自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-20T09:38:26Z) - 4D Facial Expression Diffusion Model [3.507793603897647]
本稿では,3次元表情系列を生成するための生成フレームワークを提案する。
これは、一連の3Dランドマークシーケンスでトレーニングされた生成モデルを学ぶことと、生成されたランドマークシーケンスによって駆動される入力された顔メッシュの3Dメッシュシーケンスを生成することの2つのタスクで構成されている。
実験により,本モデルは比較的小さなデータセットからのみ,現実的で質の高い表現を生成することができ,最先端の手法よりも改善されていることがわかった。
論文 参考訳(メタデータ) (2023-03-29T11:50:21Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。