Fugu-MT 論文翻訳(概要): Synthesizing Photorealistic Virtual Humans Through Cross-modal Disentanglement

論文の概要: Synthesizing Photorealistic Virtual Humans Through Cross-modal Disentanglement

arxiv url: http://arxiv.org/abs/2209.01320v1
Date: Sat, 3 Sep 2022 03:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-07 13:50:13.484816
Title: Synthesizing Photorealistic Virtual Humans Through Cross-modal Disentanglement
Title（参考訳）: クロスモーダル・ディエンタングルメントによるフォトリアリスティックな仮想ヒトの合成
Authors: Siddarth Ravichandran, Ond\v{r}ej Texler, Dimitar Dinev, Hyun Jae Kang
Abstract要約: 本稿では,高品質な仮想顔の音声合成のためのエンドツーエンドフレームワークを提案する。提案手法はリアルタイムに動作し,現在の最先端技術と比較して優れた結果が得られる。
参考スコア（独自算出の注目度）: 0.8959668207214765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over the last few decades, many aspects of human life have been enhanced with virtual domains, from the advent of digital assistants such as Amazon's Alexa and Apple's Siri to the latest metaverse efforts of the rebranded Meta. These trends underscore the importance of generating photorealistic visual depictions of humans. This has led to the rapid growth of so-called deepfake and talking head generation methods in recent years. Despite their impressive results and popularity, they usually lack certain qualitative aspects such as texture quality, lips synchronization, or resolution, and practical aspects such as the ability to run in real-time. To allow for virtual human avatars to be used in practical scenarios, we propose an end-to-end framework for synthesizing high-quality virtual human faces capable of speech with a special emphasis on performance. We introduce a novel network utilizing visemes as an intermediate audio representation and a novel data augmentation strategy employing a hierarchical image synthesis approach that allows disentanglement of the different modalities used to control the global head motion. Our method runs in real-time, and is able to deliver superior results compared to the current state-of-the-art.
Abstract（参考訳）: 過去数十年にわたって、AmazonのAlexaやAppleのSiriといったデジタルアシスタントの登場から、Metaブランドの最新のメタバース活動に至るまで、人間の生活の多くの側面が仮想ドメインで強化されてきた。これらの傾向は、人間を写実的に描写することの重要性を強調する。これは近年、いわゆるディープフェイクやトーキーヘッド生成手法の急速な成長につながっている。その印象的な結果と人気にもかかわらず、通常はテクスチャの品質、唇の同期、解像度といった定性的側面や、リアルタイムに走る能力といった実用的側面を欠いている。仮想人間のアバターを実用的なシナリオで使用できるようにするために,高性能な仮想人間の顔合成のためのエンド・ツー・エンドのフレームワークを提案する。本稿では,ビセムを中間音声表現として利用する新たなネットワークと,大域的な頭部運動を制御するために使用される異なるモーダルのばらつきを解消する階層的画像合成手法を用いた新しいデータ拡張戦略を提案する。提案手法はリアルタイムに動作し,現在の最先端技術と比較して優れた結果が得られる。

関連論文リスト

RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images [24.042262870735087]
本稿ではRealisHumanという新しいポストプロセッシングソリューションを提案する。手や顔などの現実的な人間の部品を、元の部品を参考に生成する。第2に、修正されたヒトの部位をシームレスに、対応する位置に戻す。
論文参考訳（メタデータ） (2024-09-05T16:02:11Z)
CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。 CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文参考訳（メタデータ） (2024-02-01T14:41:59Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
Self-supervised novel 2D view synthesis of large-scale scenes with efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-06-26T13:57:05Z)
Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文参考訳（メタデータ） (2023-03-28T10:48:33Z)
HDHumans: A Hybrid Approach for High-fidelity Digital Humans [107.19426606778808]
HDHumansは、正確な時間的コヒーレントな3D変形面を共同で生成する、HDヒューマン文字合成の最初の方法である。我々の手法は、古典的表面変形とニューラル放射場(NeRF)の相乗効果を達成するために慎重に設計されている。
論文参考訳（メタデータ） (2022-10-21T14:42:11Z)
Human Pose Manipulation and Novel View Synthesis using Differentiable Rendering [46.04980667824064]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文参考訳（メタデータ） (2021-11-24T19:00:07Z)
Style and Pose Control for Image Synthesis of Humans from a Single Monocular View [78.6284090004218]
StylePoseGANは、ポーズと外観のコンディショニングを別々に受け入れる非制御発電機です。我々のネットワークは、人間のイメージで完全に教師された方法で訓練され、ポーズ、外観、体の部分を切り離すことができる。 StylePoseGANは、一般的な知覚メトリクスで最新の画像生成忠実度を実現します。
論文参考訳（メタデータ） (2021-02-22T18:50:47Z)
Learning Compositional Radiance Fields of Dynamic Human Heads [13.272666180264485]
従来の方法のベストを組み合わせ、高分解能と高速な結果の両方を生成する新しい合成3D表現を提案します。異なるボリュームレンダリングを用いて、人間の頭部と上半身のフォトリアリスティックなノベルビューを計算する。本研究は,人間の頭と上半身の新たな視線を合成する手法である。
論文参考訳（メタデータ） (2020-12-17T22:19:27Z)
A Neural Lip-Sync Framework for Synthesizing Photorealistic Virtual News Anchors [8.13692293541489]
リップシンクは、音声信号から口の動きを生成するための有望な技術として登場した。本稿では,高忠実度仮想ニュースアンカーの製作に特化して設計された新しいリップシンクフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-20T12:26:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。