論文の概要: TextToon: Real-Time Text Toonify Head Avatar from Single Video
- arxiv url: http://arxiv.org/abs/2410.07160v1
- Date: Mon, 23 Sep 2024 15:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:56:57.461130
- Title: TextToon: Real-Time Text Toonify Head Avatar from Single Video
- Title(参考訳): TextToon:シングルビデオからリアルタイムテキストをヘッドアバターに
- Authors: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu,
- Abstract要約: 乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令が与えられた場合,本モデルは高忠実度トーン化アバターを生成することができる。
- 参考スコア(独自算出の注目度): 34.07760625281835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.
- Abstract(参考訳): 乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令を与えられたモデルでは、任意のアイデンティティを持つ別のビデオによってリアルタイムに駆動できる高忠実なトノン化アバターを生成することができる。
既存の関連する研究は、テクスチャ埋め込みによって幾何を復元するマルチビューモデリングに大きく依存しており、静的な方法で表示され、制御の制限につながっている。
マルチビュービデオ入力は、これらのモデルを現実世界のアプリケーションにデプロイすることを困難にしている。
これらの問題に対処するために、ガウス変形場における現実的でスタイル化された顔表現を学習するために条件付き埋め込み三面体を用いる。
さらに,適応的な画素変換ニューラルネットワークを導入し,パッチ対応のコントラスト学習を活用して高品質な画像を実現することで,3次元ガウススティングのスタイリング機能を拡張する。
消費者アプリケーションに作業をプッシュするために,GPUマシンで48FPS,モバイルマシンで15-18FPSで動作可能なリアルタイムシステムを開発した。
大規模な実験により,既存の手法よりも高品質,リアルタイムのアニメーションでテキストアバターを生成する方法の有効性が実証された。
詳細はプロジェクトページを参照してください。
関連論文リスト
- Generalizable and Animatable Gaussian Head Avatar [50.34788590904843]
本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。
我々は、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。
提案手法は, 従来の手法と比較して, 再現性や表現精度の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-10T14:29:00Z) - Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - TADA! Text to Animatable Digital Avatars [57.52707683788961]
TADAはテキスト記述を取り込み、高品質な幾何学とライフスタイルのテクスチャを備えた表現力のある3Dアバターを生産する。
我々は3次元変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導出した。
我々は、生成した文字の正規表現とRGB画像をレンダリングし、SDSトレーニングプロセスにおけるそれらの潜伏埋め込みを利用する。
論文 参考訳(メタデータ) (2023-08-21T17:59:10Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - PointAvatar: Deformable Point-based Head Avatars from Videos [103.43941945044294]
PointAvatarは変形可能な点ベースの表現で、原色を固有アルベドと正規依存シェーディングに分解する。
提案手法は,複数の音源からのモノクロビデオを用いて,アニマタブルな3Dアバターを生成することができることを示す。
論文 参考訳(メタデータ) (2022-12-16T10:05:31Z) - Real-time Virtual-Try-On from a Single Example Image through Deep
Inverse Graphics and Learned Differentiable Renderers [13.894134334543363]
本稿では,リアルタイム逆グラフィックエンコーダを構築するためのディープラーニングに基づく新しいフレームワークを提案する。
我々の模倣者は、与えられた非微分可能画像の振舞いを正確に再現することを学ぶ生成ネットワークである。
我々のフレームワークは、消費者がインスピレーション付き参照画像から未知の商品を仮想的に試すことのできる新しいアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-05-12T18:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。