Fugu-MT 論文翻訳(概要): TextToon: Real-Time Text Toonify Head Avatar from Single Video

論文の概要: TextToon: Real-Time Text Toonify Head Avatar from Single Video

arxiv url: http://arxiv.org/abs/2410.07160v1
Date: Mon, 23 Sep 2024 15:04:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 21:56:57.461130
Title: TextToon: Real-Time Text Toonify Head Avatar from Single Video
Title（参考訳）: TextToon:シングルビデオからリアルタイムテキストをヘッドアバターに
Authors: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu,
Abstract要約: 乾燥可能なトーン化アバターを生成するためのTextToonを提案する。短い単眼ビデオシーケンスとアバタースタイルに関する命令が与えられた場合,本モデルは高忠実度トーン化アバターを生成することができる。
参考スコア（独自算出の注目度）: 34.07760625281835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.
Abstract（参考訳）: 乾燥可能なトーン化アバターを生成するためのTextToonを提案する。短い単眼ビデオシーケンスとアバタースタイルに関する命令を与えられたモデルでは、任意のアイデンティティを持つ別のビデオによってリアルタイムに駆動できる高忠実なトノン化アバターを生成することができる。既存の関連する研究は、テクスチャ埋め込みによって幾何を復元するマルチビューモデリングに大きく依存しており、静的な方法で表示され、制御の制限につながっている。マルチビュービデオ入力は、これらのモデルを現実世界のアプリケーションにデプロイすることを困難にしている。これらの問題に対処するために、ガウス変形場における現実的でスタイル化された顔表現を学習するために条件付き埋め込み三面体を用いる。さらに,適応的な画素変換ニューラルネットワークを導入し,パッチ対応のコントラスト学習を活用して高品質な画像を実現することで,3次元ガウススティングのスタイリング機能を拡張する。消費者アプリケーションに作業をプッシュするために,GPUマシンで48FPS,モバイルマシンで15-18FPSで動作可能なリアルタイムシステムを開発した。大規模な実験により,既存の手法よりも高品質,リアルタイムのアニメーションでテキストアバターを生成する方法の有効性が実証された。詳細はプロジェクトページを参照してください。

関連論文リスト

VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。 MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文参考訳（メタデータ） (2025-07-08T15:04:17Z)
EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。 EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文参考訳（メタデータ） (2025-05-21T11:22:52Z)
GSAC: Leveraging Gaussian Splatting for Photorealistic Avatar Creation with Unity Integration [45.439388725485124]
フォトリアリスティックアバターは、仮想現実(VR)や拡張現実(AR)における没入型アプリケーションに不可欠であり、トレーニングシミュレーション、遠隔医療、バーチャルコラボレーションなどの分野におけるライフライクなインタラクションを可能にする。既存のアバター生成技術は、高コスト、長い作成時間、仮想アプリケーションにおける限られたユーティリティなど、重大な課題に直面している。本稿では,モノクロビデオ入力を活用して,スケーラブルで効率的な光リアルアバターを作成する,エンドツーエンドの3Dガウス3DGSアバター生成パイプラインを提案する。
論文参考訳（メタデータ） (2025-04-17T15:10:14Z)
Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars [52.439807298140394]
少数の入力画像から高品質でアニマタブルな3Dヘッドアバターを復元するAvat3rを提案する。大規模なリコンストラクションモデルをアニマタブルにし、大規模なマルチビュービデオデータセットから3次元以上の人間の頭部を強力に学習する。トレーニング中に異なる表現の入力イメージをモデルに供給することでロバスト性を高め,不整合入力からの3次元頭部アバターの再構成を可能にする。
論文参考訳（メタデータ） (2025-02-27T16:00:11Z)
TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions [0.562479170374811]
本稿では,既存の生成システムを融合してテキストから立体視のバーチャルリアリティービデオを作成する手法を提案する。私たちの研究は、バーチャルリアリティーシミュレーションのような分野において自然言語駆動グラフィックスを使うことのエキサイティングな可能性を強調します。
論文参考訳（メタデータ） (2025-01-02T09:21:03Z)
Generalizable and Animatable Gaussian Head Avatar [50.34788590904843]
本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。我々は、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。提案手法は, 従来の手法と比較して, 再現性や表現精度の点で優れた性能を示す。
論文参考訳（メタデータ） (2024-10-10T14:29:00Z)
Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文参考訳（メタデータ） (2024-08-10T08:09:57Z)
GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。 GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文参考訳（メタデータ） (2023-12-04T18:55:45Z)
FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文参考訳（メタデータ） (2023-10-26T16:13:00Z)
TADA! Text to Animatable Digital Avatars [57.52707683788961]
TADAはテキスト記述を取り込み、高品質な幾何学とライフスタイルのテクスチャを備えた表現力のある3Dアバターを生産する。我々は3次元変位とテクスチャマップを備えたSMPL-Xから最適化可能な高分解能ボディモデルを導出した。我々は、生成した文字の正規表現とRGB画像をレンダリングし、SDSトレーニングプロセスにおけるそれらの潜伏埋め込みを利用する。
論文参考訳（メタデータ） (2023-08-21T17:59:10Z)
Text-Conditional Contextualized Avatars For Zero-Shot Personalization [47.85747039373798]
本研究では,アバターによる画像生成のパーソナライズを可能にするパイプラインを提案する。私たちのパイプラインはゼロショット、アバターテクスチャ、スタイル非依存で、アバターのトレーニングは一切必要ありません。大規模な画像データセットを利用して人間の3Dポーズパラメータを学習する方法を初めて示す。
論文参考訳（メタデータ） (2023-04-14T22:00:44Z)
HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。テスト時,本手法は単眼のRGBビデオによって駆動される。
論文参考訳（メタデータ） (2023-03-25T13:56:33Z)
PointAvatar: Deformable Point-based Head Avatars from Videos [103.43941945044294]
PointAvatarは変形可能な点ベースの表現で、原色を固有アルベドと正規依存シェーディングに分解する。提案手法は,複数の音源からのモノクロビデオを用いて,アニマタブルな3Dアバターを生成することができることを示す。
論文参考訳（メタデータ） (2022-12-16T10:05:31Z)
Real-time Virtual-Try-On from a Single Example Image through Deep Inverse Graphics and Learned Differentiable Renderers [13.894134334543363]
本稿では,リアルタイム逆グラフィックエンコーダを構築するためのディープラーニングに基づく新しいフレームワークを提案する。我々の模倣者は、与えられた非微分可能画像の振舞いを正確に再現することを学ぶ生成ネットワークである。我々のフレームワークは、消費者がインスピレーション付き参照画像から未知の商品を仮想的に試すことのできる新しいアプリケーションを可能にする。
論文参考訳（メタデータ） (2022-05-12T18:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。