Fugu-MT 論文翻訳(概要): Joint Learning of Depth and Appearance for Portrait Image Animation

論文の概要: Joint Learning of Depth and Appearance for Portrait Image Animation

arxiv url: http://arxiv.org/abs/2501.08649v1
Date: Wed, 15 Jan 2025 08:24:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.392302
Title: Joint Learning of Depth and Appearance for Portrait Image Animation
Title（参考訳）: 画像アニメーションにおける深度と外観の連成学習
Authors: Xinya Ji, Gaspard Zoss, Prashanth Chandran, Lingchen Yang, Xun Cao, Barbara Solenthaler, Derek Bradley,
Abstract要約: 拡散型ポートレート画像生成装置において,視覚的外観と深度を同時に学習することを提案する。我々のフレームワークは、顔深度画像生成や画像深度生成など、様々な下流アプリケーションに効率的に適応することができる。
参考スコア（独自算出の注目度）: 20.83495988491606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 2D portrait animation has experienced significant advancements in recent years. Much research has utilized the prior knowledge embedded in large generative diffusion models to enhance high-quality image manipulation. However, most methods only focus on generating RGB images as output, and the co-generation of consistent visual plus 3D output remains largely under-explored. In our work, we propose to jointly learn the visual appearance and depth simultaneously in a diffusion-based portrait image generator. Our method embraces the end-to-end diffusion paradigm and introduces a new architecture suitable for learning this conditional joint distribution, consisting of a reference network and a channel-expanded diffusion backbone. Once trained, our framework can be efficiently adapted to various downstream applications, such as facial depth-to-image and image-to-depth generation, portrait relighting, and audio-driven talking head animation with consistent 3D output.
Abstract（参考訳）: 近年,2次元肖像画が顕著な進歩を遂げている。多くの研究は、高画質の画像操作を改善するために、大規模な生成拡散モデルに埋め込まれた以前の知識を活用している。しかし、ほとんどの手法は出力としてRGB画像のみに焦点をあてており、一貫した視覚+3D出力のコジェネレーションは未探索のままである。本研究では,拡散型ポートレート画像生成装置において,視覚的外観と深度を同時に学習することを提案する。提案手法は, 終端拡散パラダイムを取り入れ, 参照ネットワークとチャネル拡張拡散バックボーンからなる, この条件付き結合分布の学習に適した新しいアーキテクチャを提案する。トレーニングを済ませば、顔深度画像や深度画像生成、ポートレートライティング、一貫した3D出力による音声駆動音声ヘッドアニメーションなど、さまざまな下流アプリケーションに効果的に適用できる。

関連論文リスト

Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-11-03T17:24:18Z)
TurboPortrait3D: Single-step diffusion-based fast portrait novel-view synthesis [1.238712117697886]
人間の肖像画の低遅延ノベルビュー合成法であるTurboPortrait3Dを紹介する。提案手法は,既存の3次元画像生成モデルが視覚的アーティファクトの傾向にあることを示すものである。合成多視点データの大規模なコーパスの事前学習を含む,新しい効果的なトレーニング戦略を導入する。
論文参考訳（メタデータ） (2025-10-27T23:28:11Z)
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文参考訳（メタデータ） (2025-01-30T23:43:06Z)
DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文参考訳（メタデータ） (2024-11-30T08:42:13Z)
Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文参考訳（メタデータ） (2024-11-15T17:19:18Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文参考訳（メタデータ） (2024-03-13T18:46:33Z)
Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文参考訳（メタデータ） (2023-10-23T15:02:23Z)
3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文参考訳（メタデータ） (2023-03-31T09:03:18Z)
Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文参考訳（メタデータ） (2022-09-12T17:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。