論文の概要: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
- arxiv url: http://arxiv.org/abs/2403.08764v1
- Date: Wed, 13 Mar 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:17.236349
- Title: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
- Title(参考訳): VLOGGER: 電子化アバター合成のための多モード拡散
- Authors: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros,
Thiemo Alldieck, Cristian Sminchisescu
- Abstract要約: VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
- 参考スコア(独自算出の注目度): 40.869862603815875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VLOGGER, a method for audio-driven human video generation from a
single input image of a person, which builds on the success of recent
generative diffusion models. Our method consists of 1) a stochastic
human-to-3d-motion diffusion model, and 2) a novel diffusion-based architecture
that augments text-to-image models with both spatial and temporal controls.
This supports the generation of high quality video of variable length, easily
controllable through high-level representations of human faces and bodies. In
contrast to previous work, our method does not require training for each
person, does not rely on face detection and cropping, generates the complete
image (not just the face or the lips), and considers a broad spectrum of
scenarios (e.g. visible torso or diverse subject identities) that are critical
to correctly synthesize humans who communicate. We also curate MENTOR, a new
and diverse dataset with 3d pose and expression annotations, one order of
magnitude larger than previous ones (800,000 identities) and with dynamic
gestures, on which we train and ablate our main technical contributions.
VLOGGER outperforms state-of-the-art methods in three public benchmarks,
considering image quality, identity preservation and temporal consistency while
also generating upper-body gestures. We analyze the performance of VLOGGER with
respect to multiple diversity metrics, showing that our architectural choices
and the use of MENTOR benefit training a fair and unbiased model at scale.
Finally we show applications in video editing and personalization.
- Abstract(参考訳): 本稿では,VLOGGERを提案する。VLOGGERは人間の単一入力画像から人間の映像を音声で生成する手法であり,近年の再生拡散モデルの成功を基盤としている。
私たちの方法は
1)確率的人間から3次元運動拡散モデル、及び
2)空間的・時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張した新しい拡散型アーキテクチャ。
これは、人間の顔や身体の高レベルな表現によって容易に制御できる、可変長の高品質なビデオの生成をサポートする。
従来の研究とは対照的に,本手法では,各人の訓練を必要とせず,顔検出や採り取りに頼らず,完全な画像(顔や唇だけでなく)を生成し,コミュニケーションする人間を正しく合成する上で重要なシナリオ(例えば,視覚的な胴体や多様な被写体等)の広い範囲を考察している。
また、3dのポーズと表現アノテーションを備えた新しい多彩なデータセットであるmentORを、以前のもの(80,000のID)よりも1桁大きく、動的ジェスチャーでキュレートします。
VLOGGERは、画像の品質、アイデンティティの保存、時間的一貫性を考慮し、上半身のジェスチャーを生成する3つの公開ベンチマークにおいて最先端の手法より優れている。
我々は、VLOGGERの性能を複数の多様性指標に関して分析し、私たちのアーキテクチャ選択とMENTORの使用が、公正で偏見のないモデルを大規模にトレーニングすることの恩恵であることを示した。
最後に、ビデオ編集とパーソナライゼーションの応用について述べる。
関連論文リスト
- Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。