論文の概要: Beyond Fixed Topologies: Unregistered Training and Comprehensive Evaluation Metrics for 3D Talking Heads
- arxiv url: http://arxiv.org/abs/2410.11041v1
- Date: Mon, 14 Oct 2024 19:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:27.413971
- Title: Beyond Fixed Topologies: Unregistered Training and Comprehensive Evaluation Metrics for 3D Talking Heads
- Title(参考訳): 固定トポロジを超えて:3Dトーキングヘッドのための未登録トレーニングと総合評価指標
- Authors: Federico Nocentini, Thomas Besnier, Claudio Ferrari, Sylvain Arguillere, Stefano Berretti, Mohamed Daoudi,
- Abstract要約: 実スキャンデータを含む任意のトポロジで3次元顔をアニメーションできるフレームワークを提案する。
我々のアプローチは、メッシュ上の熱拡散を利用して、固定されたトポロジー制約を克服するモデルに依存している。
- 参考スコア(独自算出の注目度): 13.003073077799835
- License:
- Abstract: Generating speech-driven 3D talking heads presents numerous challenges; among those is dealing with varying mesh topologies. Existing methods require a registered setting, where all meshes share a common topology: a point-wise correspondence across all meshes the model can animate. While simplifying the problem, it limits applicability as unseen meshes must adhere to the training topology. This work presents a framework capable of animating 3D faces in arbitrary topologies, including real scanned data. Our approach relies on a model leveraging heat diffusion over meshes to overcome the fixed topology constraint. We explore two training settings: a supervised one, in which training sequences share a fixed topology within a sequence but any mesh can be animated at test time, and an unsupervised one, which allows effective training with varying mesh structures. Additionally, we highlight the limitations of current evaluation metrics and propose new metrics for better lip-syncing evaluation between speech and facial movements. Our extensive evaluation shows our approach performs favorably compared to fixed topology techniques, setting a new benchmark by offering a versatile and high-fidelity solution for 3D talking head generation.
- Abstract(参考訳): 音声駆動の3D対話ヘッドの生成には、さまざまなメッシュトポロジを扱うことなど、多くの課題がある。
既存の方法は、すべてのメッシュが共通のトポロジを共有する、登録された設定を必要とする。
問題を単純化する一方で、目に見えないメッシュがトレーニングトポロジに従わなければならないため、適用性を制限する。
本研究は,実スキャンデータを含む任意のトポロジで3次元顔をアニメーションできるフレームワークを提案する。
我々のアプローチは、メッシュ上の熱拡散を利用して、固定されたトポロジー制約を克服するモデルに依存している。
トレーニングシーケンスがシーケンス内で固定トポロジを共有するが、テスト時に任意のメッシュをアニメーションできる教師なしのトレーニング設定と、さまざまなメッシュ構造による効果的なトレーニングを可能にする教師なしのトレーニング設定の2つを探索する。
さらに,現在の評価指標の限界を強調し,音声と顔の動きのリップシンキング評価を改善するための新しい指標を提案する。
広範に評価した結果,提案手法は固定トポロジ手法と比較して良好に動作し,多目的かつ高忠実な3次元音声ヘッド生成ソリューションを提供することで,新しいベンチマークを設定できることがわかった。
関連論文リスト
- Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - ScanTalk: 3D Talking Heads from Unregistered Scans [13.003073077799835]
スキャンデータを含む任意のトポロジで3次元顔をアニメーションできる新しいフレームワークである textbfScanTalk を提案する。
我々のアプローチは、固定トポロジ制約を克服するためにDiffusionNetアーキテクチャに依存しており、より柔軟でリアルな3Dアニメーションのための有望な道を提供する。
論文 参考訳(メタデータ) (2024-03-16T14:58:58Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文 参考訳(メタデータ) (2023-11-30T01:14:43Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Generalizable Local Feature Pre-training for Deformable Shape Analysis [36.44119664239748]
トランスファーラーニングは、ほとんどトレーニングデータのない設定で問題に対処するための基本となる。
変形可能な3Dオブジェクトを含むタスクにおける特徴の局所性と伝達可能性の関係を解析する。
本稿では,3次元伝達学習における受容場を最適化する微分可能な手法を提案する。
論文 参考訳(メタデータ) (2023-03-27T11:13:46Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Semi-supervised, Topology-Aware Segmentation of Tubular Structures from
Live Imaging 3D Microscopy [6.2651370198971295]
本稿では, バイオメディカルイメージングにおける2つの問題に対処する: セグメンテーションのトポロジ的一貫性, 限定アノテーション。
本研究では, 予測された真理セグメントと地上の真理セグメントの位相的および幾何学的整合性を測定するトポロジカルスコアを提案する。
本研究は, 乳房内管状構造を集束顕微鏡で観察し, 本研究の意義を検証した。
論文 参考訳(メタデータ) (2021-05-20T13:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。