論文の概要: Few-Shot Identity Adaptation for 3D Talking Heads via Global Gaussian Field
- arxiv url: http://arxiv.org/abs/2506.22044v1
- Date: Fri, 27 Jun 2025 09:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.153305
- Title: Few-Shot Identity Adaptation for 3D Talking Heads via Global Gaussian Field
- Title(参考訳): グローバルガウス場を用いた3次元対話頭部のFew-Shot Identity Adaptation
- Authors: Hong Nie, Fuyuan Cao, Lu Chen, Fengxin Chen, Yuefeng Zou, Jun Yu,
- Abstract要約: リコンストラクションとレンダリングに基づく音声ヘッド合成法は、強いアイデンティティ保存を伴う高品質な結果を得るが、アイデンティティ固有モデルへの依存によって制限される。
FIAGは,少数のトレーニング映像のみを用いて,効率の良い個人識別特化を実現する新しい3D音声ヘッド合成フレームワークである。
- 参考スコア(独自算出の注目度): 15.145448983662636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstruction and rendering-based talking head synthesis methods achieve high-quality results with strong identity preservation but are limited by their dependence on identity-specific models. Each new identity requires training from scratch, incurring high computational costs and reduced scalability compared to generative model-based approaches. To overcome this limitation, we propose FIAG, a novel 3D speaking head synthesis framework that enables efficient identity-specific adaptation using only a few training footage. FIAG incorporates Global Gaussian Field, which supports the representation of multiple identities within a shared field, and Universal Motion Field, which captures the common motion dynamics across diverse identities. Benefiting from the shared facial structure information encoded in the Global Gaussian Field and the general motion priors learned in the motion field, our framework enables rapid adaptation from canonical identity representations to specific ones with minimal data. Extensive comparative and ablation experiments demonstrate that our method outperforms existing state-of-the-art approaches, validating both the effectiveness and generalizability of the proposed framework. Code is available at: \textit{https://github.com/gme-hong/FIAG}.
- Abstract(参考訳): リコンストラクションとレンダリングに基づく音声ヘッド合成法は、強いアイデンティティ保存を伴う高品質な結果を得るが、アイデンティティ固有モデルへの依存によって制限される。
それぞれの新しいアイデンティティは、生成モデルベースのアプローチと比較して、スクラッチからのトレーニング、高い計算コスト、スケーラビリティの低下を必要とする。
この制限を克服するために, FIAGを提案する。このフレームワークは, 少数のトレーニング映像のみを用いて, 効率的な識別特化を実現する新しい3次元音声ヘッド合成フレームワークである。
FIAGには、共有フィールド内の複数のアイデンティティの表現をサポートするGlobal Gaussian Fieldと、多様なアイデンティティをまたいだ共通の動きのダイナミクスをキャプチャするUniversal Motion Fieldが組み込まれている。
本手法は,Global Gaussian Fieldで符号化された共有顔構造情報とモーションフィールドで学習された一般的な動き先行情報から,最小限のデータを持つ特定の人物への標準的同一性表現からの迅速な適応を可能にする。
大規模な比較・アブレーション実験により,提案手法は既存の最先端手法よりも優れ,提案手法の有効性と一般化性の両方を検証した。
コードは以下の通りである。
関連論文リスト
- CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - ID-Booth: Identity-consistent Face Generation with Diffusion Models [10.042492056152232]
我々はID-Boothと呼ばれる新しい生成拡散に基づくフレームワークを提案する。
このフレームワークは、事前訓練された拡散モデルの合成能力を保ちながら、アイデンティティ一貫性のある画像生成を可能にする。
本手法は、画像の多様性を向上しつつ、競合する手法よりもアイデンティティ間の一貫性とアイデンティティ間の分離性を向上する。
論文 参考訳(メタデータ) (2025-04-10T02:20:18Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。