論文の概要: Condition Matters in Full-head 3D GANs
- arxiv url: http://arxiv.org/abs/2602.07198v1
- Date: Fri, 06 Feb 2026 21:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.498576
- Title: Condition Matters in Full-head 3D GANs
- Title(参考訳): フルヘッド3D GANの条件
- Authors: Heyuan Li, Huimin Zhang, Yuda Qiu, Zhengwentai Sun, Keru Zheng, Lingteng Qiu, Peihao Li, Qi Zuo, Ce Chen, Yujian Zheng, Yuming Gu, Zilong Dong, Xiaoguang Han,
- Abstract要約: 本稿では,フルヘッド3D GANの条件入力としてビュー不変セマンティック機能を提案する。
本手法は, 忠実度, 多様性, 一般化性を著しく向上させる。
- 参考スコア(独自算出の注目度): 28.247037886054184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditioning is crucial for stable training of full-head 3D GANs. Without any conditioning signal, the model suffers from severe mode collapse, making it impractical to training. However, a series of previous full-head 3D GANs conventionally choose the view angle as the conditioning input, which leads to a bias in the learned 3D full-head space along the conditional view direction. This is evident in the significant differences in generation quality and diversity between the conditional view and non-conditional views of the generated 3D heads, resulting in global incoherence across different head regions. In this work, we propose to use view-invariant semantic feature as the conditioning input, thereby decoupling the generative capability of 3D heads from the viewing direction. To construct a view-invariant semantic condition for each training image, we create a novel synthesized head image dataset. We leverage FLUX.1 Kontext to extend existing high-quality frontal face datasets to a wide range of view angles. The image clip feature extracted from the frontal view is then used as a shared semantic condition across all views in the extended images, ensuring semantic alignment while eliminating directional bias. This also allows supervision from different views of the same subject to be consolidated under a shared semantic condition, which accelerates training and enhances the global coherence of the generated 3D heads. Moreover, as GANs often experience slower improvements in diversity once the generator learns a few modes that successfully fool the discriminator, our semantic conditioning encourages the generator to follow the true semantic distribution, thereby promoting continuous learning and diverse generation. Extensive experiments on full-head synthesis and single-view GAN inversion demonstrate that our method achieves significantly higher fidelity, diversity, and generalizability.
- Abstract(参考訳): フルヘッド3D GANの安定訓練にはコンディショニングが不可欠である。
条件付き信号がなければ、モデルは深刻なモード崩壊に悩まされ、訓練には実用的ではない。
しかし、従来のフルヘッド3D GANは、従来、条件付け入力としてビュー角を選択しており、条件付け方向に沿って学習された3Dフルヘッド空間に偏りが生じる。
これは, 生成した3次元頭部の条件視と条件視の非条件視とにおける生成品質と多様性の有意な違いが明らかであり, その結果, 異なる頭部領域にまたがる大域的不整合が生じた。
そこで本研究では,ビュー不変セマンティックな特徴を条件付け入力として使用し,視覚方向から3Dヘッドの生成能力を分離することを提案する。
各トレーニング画像に対するビュー不変セマンティック条件を構築するために、新しい合成ヘッドイメージデータセットを作成する。
FLUX.1を利用する
Kontextは、既存の高品質の顔データセットを広範囲のビューアングルに拡張する。
フロントビューから抽出された画像クリップ機能は、拡張された画像内のすべてのビューにまたがる共有セマンティック条件として使用され、指向性バイアスを排除しつつセマンティックアライメントを確保する。
これにより、同じ主題の異なる視点からの監督が共有意味条件の下で統合され、トレーニングを加速し、生成された3Dヘッドのグローバルなコヒーレンスを高めることができる。
さらに、ジェネレータが識別器を騙すいくつかのモードを学習すると、GANは多様性の向上を遅くするので、セマンティックコンディショニングは、ジェネレータが真のセマンティックな分布に従うことを奨励し、継続的な学習と多様な生成を促進する。
フルヘッド合成と単一ビュー GAN インバージョンに関する広範囲な実験により,本手法は忠実度,多様性,一般化性を著しく向上することが示された。
関連論文リスト
- UMAMI: Unifying Masked Autoregressive Models and Deterministic Rendering for View Synthesis [28.245380116188883]
新たなビュー合成(NVS)は、シーンの写実的で3D一貫性のある画像を、未確認のカメラのポーズからレンダリングすることを目的としている。
既存の決定論的ネットワークは、観測された領域を素早くレンダリングするが、観測されていない領域をぼかす。
両パラダイムの長所を統一するハイブリッドフレームワークを提案する。双方向トランスフォーマーは多視点画像トークンとプルッカー線埋め込みを符号化し、共有潜在表現を生成する。
論文 参考訳(メタデータ) (2025-12-23T07:08:00Z) - FlashWorld: High-quality 3D Scene Generation within Seconds [44.24921660160879]
FlashWorldは、単一の画像やテキストプロンプトから数秒で3Dシーンを生成する生成モデルである。
我々のアプローチは、従来のマルチビュー指向(MV指向)パラダイムから3D指向アプローチに移行します。
論文 参考訳(メタデータ) (2025-10-15T15:35:48Z) - GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion [57.09673862519791]
HuGDiffusionは、シングルビュー入力画像から人間の文字の新しいビュー合成(NVS)を実現するための学習パイプラインである。
本研究では,1つの画像から抽出したヒトの事前情報に基づいて,拡散に基づくフレームワークを用いて3DGS属性の集合を生成することを目的とする。
我々のHuGDiffusionは最先端の手法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-25T01:00:33Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis [81.70922087960271]
我々は,非構造画像から学習した新しい幾何学誘導型3次元頭部合成モデルであるOmniAvatarを提案する。
我々のモデルは、最先端の手法と比較して、魅力的なダイナミックディテールで、より好ましいID保存された3Dヘッドを合成することができる。
論文 参考訳(メタデータ) (2023-03-27T18:36:53Z) - Free-HeadGAN: Neural Talking Head Synthesis with Explicit Gaze Control [54.079327030892244]
Free-HeadGANは、人為的なニューラルトーキングヘッド合成システムである。
本研究では,3次元顔のランドマークが不足している顔のモデリングが,最先端の生成性能を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-03T16:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。