論文の概要: MI-NeRF: Learning a Single Face NeRF from Multiple Identities
- arxiv url: http://arxiv.org/abs/2403.19920v1
- Date: Fri, 29 Mar 2024 02:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:44:26.683681
- Title: MI-NeRF: Learning a Single Face NeRF from Multiple Identities
- Title(参考訳): MI-NeRF: 複数の物体から単一顔NeRFを学習する
- Authors: Aggelina Chatziagapi, Grigorios G. Chrysos, Dimitris Samaras,
- Abstract要約: 本研究では,複数の人物の顔映像から単一動的神経放射場(NeRF)を学習する手法を提案する。
本稿では,表情伝達と音声合成の両面での結果について述べる。
- 参考スコア(独自算出の注目度): 31.84992318237585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a method that learns a single dynamic neural radiance field (NeRF) from monocular talking face videos of multiple identities. NeRFs have shown remarkable results in modeling the 4D dynamics and appearance of human faces. However, they require per-identity optimization. Although recent approaches have proposed techniques to reduce the training and rendering time, increasing the number of identities can be expensive. We introduce MI-NeRF (multi-identity NeRF), a single unified network that models complex non-rigid facial motion for multiple identities, using only monocular videos of arbitrary length. The core premise in our method is to learn the non-linear interactions between identity and non-identity specific information with a multiplicative module. By training on multiple videos simultaneously, MI-NeRF not only reduces the total training time compared to standard single-identity NeRFs, but also demonstrates robustness in synthesizing novel expressions for any input identity. We present results for both facial expression transfer and talking face video synthesis. Our method can be further personalized for a target identity given only a short video.
- Abstract(参考訳): 本研究では,複数の人物の顔映像から単一動的神経放射場(NeRF)を学習する手法を提案する。
NeRFは、人間の顔の4Dダイナミックスと外観をモデル化する際、顕著な結果を示した。
しかし、それらは同一性ごとの最適化を必要とする。
近年、トレーニングやレンダリングの時間を短縮する手法が提案されているが、アイデンティティの数を増やすにはコストがかかる。
MI-NeRF(multi-identity NeRF)は、任意の長さのモノクロビデオのみを用いて、複雑な非剛体顔の動きをモデル化する単一統一ネットワークである。
本手法の中核となる前提は、乗法モジュールを用いてアイデンティティと非アイデンティティ固有情報の間の非線形相互作用を学習することである。
複数の動画を同時にトレーニングすることで、MI-NeRFは通常のシングルアイデンティティのNeRFと比較してトレーニング時間を短縮するだけでなく、任意の入力IDに対して新規表現を合成する際の堅牢性も示している。
本稿では,表情伝達と音声合成の両面での結果について述べる。
本手法は,短いビデオのみを対象とする個人識別のためにさらにパーソナライズすることができる。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - NeRF-AD: Neural Radiance Field with Attention-based Disentanglement for
Talking Face Synthesis [2.5387791616637587]
音声によって駆動される顔合成は、多次元信号処理とマルチメディアの分野で現在研究されているホットスポットの1つである。
最近,生成した顔のリアリズムと3次元効果を高めるために,この研究領域にNeRFが導入された。
本稿では,注目型遠絡(NeRF-AD)を用いた音声合成手法を提案する。
論文 参考訳(メタデータ) (2024-01-23T08:54:10Z) - ActorsNeRF: Animatable Few-shot Human Rendering with Generalizable NeRFs [61.677180970486546]
本稿では,ActorNeRFと呼ばれる新しいアニマタブルNeRFを提案する。
最初は多様な人間の被写体で事前訓練され、その後、目に見えないポーズを持つ新しい俳優のために、数発の単眼ビデオフレームで調整される。
我々は、アクターNeRFが、新しい人々への数ショットの一般化や複数のデータセットのポーズにおいて、既存の最先端技術よりも著しく優れていることを定量的に、質的に証明する。
論文 参考訳(メタデータ) (2023-04-27T17:58:48Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - SelfNeRF: Fast Training NeRF for Human from Monocular Self-rotating
Video [29.50059002228373]
SelfNeRFは、人間のパフォーマンスのための効率的な神経放射場に基づく新しいビュー合成法である。
訓練はスクラッチから行うことができ、20分ほどで高忠実度が得られる。
論文 参考訳(メタデータ) (2022-10-04T14:54:40Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Synthetic Expressions are Better Than Real for Learning to Detect Facial
Actions [4.4532095214807965]
提案手法は,各映像フレームから顔の3次元形状を再構成し,その3次元メッシュを標準視に整列し,GANネットワークをトレーニングして,顔のアクションユニットによる新規画像の合成を行う。
このネットワークは、合成された表情を訓練し、実際の表情を訓練し、現在の最先端のアプローチを上回った。
論文 参考訳(メタデータ) (2020-10-21T13:11:45Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。