論文の概要: TextToon: Real-Time Text Toonify Head Avatar from Single Video
- arxiv url: http://arxiv.org/abs/2410.07160v1
- Date: Mon, 23 Sep 2024 15:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 10:39:57.529143
- Title: TextToon: Real-Time Text Toonify Head Avatar from Single Video
- Title(参考訳): TextToon:シングルビデオからリアルタイムテキストをヘッドアバターに
- Authors: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu,
- Abstract要約: 乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令が与えられた場合,本モデルは高忠実度トーン化アバターを生成することができる。
- 参考スコア(独自算出の注目度): 34.07760625281835
- License:
- Abstract: We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.
- Abstract(参考訳): 乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令を与えられたモデルでは、任意のアイデンティティを持つ別のビデオによってリアルタイムに駆動できる高忠実なトノン化アバターを生成することができる。
既存の関連する研究は、テクスチャ埋め込みによって幾何を復元するマルチビューモデリングに大きく依存しており、静的な方法で表示され、制御の制限につながっている。
マルチビュービデオ入力は、これらのモデルを現実世界のアプリケーションにデプロイすることを困難にしている。
これらの問題に対処するために、ガウス変形場における現実的でスタイル化された顔表現を学習するために条件付き埋め込み三面体を用いる。
さらに,適応的な画素変換ニューラルネットワークを導入し,パッチ対応のコントラスト学習を活用して高品質な画像を実現することで,3次元ガウススティングのスタイリング機能を拡張する。
消費者アプリケーションに作業をプッシュするために,GPUマシンで48FPS,モバイルマシンで15-18FPSで動作可能なリアルタイムシステムを開発した。
大規模な実験により,既存の手法よりも高品質,リアルタイムのアニメーションでテキストアバターを生成する方法の有効性が実証された。
詳細はプロジェクトページを参照してください。
関連論文リスト
- MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space [25.24509617548819]
テキストプロンプトを利用した3次元アバター生成とパーソナライズのための新しいフレームワークを提案する。
主要なイノベーションは、フォトリアリスティックなアバター合成の課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:59:11Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - TADA! Text to Animatable Digital Avatars [57.52707683788961]
TADAはテキスト記述を取り込み、高品質な幾何学とライフスタイルのテクスチャを備えた表現力のある3Dアバターを生産する。
我々は3次元変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導出した。
我々は、生成した文字の正規表現とRGB画像をレンダリングし、SDSトレーニングプロセスにおけるそれらの潜伏埋め込みを利用する。
論文 参考訳(メタデータ) (2023-08-21T17:59:10Z) - Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。
私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。
大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文 参考訳(メタデータ) (2023-04-14T22:00:44Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - PointAvatar: Deformable Point-based Head Avatars from Videos [103.43941945044294]
PointAvatarは変形可能な点ベースの表現で、原色を固有アルベドと正規依存シェーディングに分解する。
提案手法は,複数の音源からのモノクロビデオを用いて,アニマタブルな3Dアバターを生成することができることを示す。
論文 参考訳(メタデータ) (2022-12-16T10:05:31Z) - Real-time Virtual-Try-On from a Single Example Image through Deep
Inverse Graphics and Learned Differentiable Renderers [13.894134334543363]
本稿では,リアルタイム逆グラフィックエンコーダを構築するためのディープラーニングに基づく新しいフレームワークを提案する。
我々の模倣者は、与えられた非微分可能画像の振舞いを正確に再現することを学ぶ生成ネットワークである。
我々のフレームワークは、消費者がインスピレーション付き参照画像から未知の商品を仮想的に試すことのできる新しいアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-05-12T18:44:00Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。