論文の概要: LatentSwap3D: Semantic Edits on 3D Image GANs
- arxiv url: http://arxiv.org/abs/2212.01381v1
- Date: Fri, 2 Dec 2022 18:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:07:33.466961
- Title: LatentSwap3D: Semantic Edits on 3D Image GANs
- Title(参考訳): LatentSwap3D: 3D画像のセマンティック編集
- Authors: Enis Simsar and Alessio Tonioni and Evin P{\i}nar \"Ornek and Federico
Tombari
- Abstract要約: LatentSwap3Dは、事前訓練された3D対応GANの潜在空間における属性編集を可能にするために設計されたモデルに依存しないアプローチである。
我々は,pi-GAN,GIRAFFE,StyleSDF,MVGAN,EG3D,VolumeGANなどの3D認識生成モデルに対する意味編集アプローチを示す。
- 参考スコア(独自算出の注目度): 44.945336381282374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent 3D-aware GANs rely on volumetric rendering techniques to disentangle
the pose and appearance of objects, de facto generating entire 3D volumes
rather than single-view 2D images from a latent code. Complex image editing
tasks can be performed in standard 2D-based GANs (e.g., StyleGAN models) as
manipulation of latent dimensions. However, to the best of our knowledge,
similar properties have only been partially explored for 3D-aware GAN models.
This work aims to fill this gap by showing the limitations of existing methods
and proposing LatentSwap3D, a model-agnostic approach designed to enable
attribute editing in the latent space of pre-trained 3D-aware GANs. We first
identify the most relevant dimensions in the latent space of the model
controlling the targeted attribute by relying on the feature importance ranking
of a random forest classifier. Then, to apply the transformation, we swap the
top-K most relevant latent dimensions of the image being edited with an image
exhibiting the desired attribute. Despite its simplicity, LatentSwap3D provides
remarkable semantic edits in a disentangled manner and outperforms alternative
approaches both qualitatively and quantitatively. We demonstrate our semantic
edit approach on various 3D-aware generative models such as pi-GAN, GIRAFFE,
StyleSDF, MVCGAN, EG3D and VolumeGAN, and on diverse datasets, such as FFHQ,
AFHQ, Cats, MetFaces, and CompCars. The project page can be found:
\url{https://enisimsar.github.io/latentswap3d/}.
- Abstract(参考訳): 最近の3D対応のGANは、オブジェクトのポーズと外観を乱すためにボリュームレンダリング技術に依存しており、潜在コードからのシングルビュー2D画像ではなく、事実上3Dボリューム全体を生成している。
複雑な画像編集タスクは、標準の2DベースのGAN(例えばStyleGANモデル)で潜在次元の操作として実行できる。
しかし、我々の知る限りでは、同様の性質は3次元GANモデルに対して部分的にのみ検討されている。
本研究の目的は,既存の手法の限界を示すことによって,このギャップを埋めることと,事前学習された3D対応GANの潜在空間における属性編集を可能にするモデルに依存しないアプローチであるLatentSwap3Dを提案することである。
まず,対象属性を制御するモデルの潜在空間における最も関連性の高い次元を,ランダムな森林分類器の特徴重要度に頼って同定する。
次に、変換を適用するために、編集中の画像の最も関連する潜在次元のトップkを、所望の属性を示す画像に置き換える。
その単純さにもかかわらず、LatntSwap3Dは不整合な方法で顕著なセマンティックな編集を提供し、定性的かつ定量的に代替アプローチより優れている。
我々は, pi-GAN, GIRAFFE, StyleSDF, MVCGAN, EG3D, VolumeGAN, FFHQ, AFHQ, Cats, MetFaces, CompCarsといった多種多様な3D生成モデルに対して, セマンティックな編集アプローチを示す。
プロジェクトページは \url{https://enisimsar.github.io/latentswap3d/} で確認できる。
関連論文リスト
- 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks [101.36230756743106]
本論文は,2次元画像の中間表現として,2次元領域と3次元領域を3次元フィールドで橋渡しする3次元GANの成功に着想を得たものである。
本稿では,3次元ポートレートスタイリングのための3次元認識型GANをベースとしたHyperStyle3Dという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T07:22:05Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Designing a 3D-Aware StyleNeRF Encoder for Face Editing [15.303426697795143]
本稿では,強力なStyleNeRFモデルに基づくGANインバージョンと顔編集のための3D対応エンコーダを提案する。
提案する3Daエンコーダは、パラメトリックな3次元顔モデルと学習可能な詳細表現モデルを組み合わせて、幾何学、テクスチャ、ビュー方向コードを生成する。
論文 参考訳(メタデータ) (2023-02-19T03:32:28Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - 3D GAN Inversion with Pose Optimization [26.140281977885376]
本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
論文 参考訳(メタデータ) (2022-10-13T19:06:58Z) - FENeRF: Face Editing in Neural Radiance Fields [34.332520597067074]
FENeRFは、ビュー一貫性と局所編集可能なポートレート画像を生成することができる3D対応ジェネレータである。
本手法では,2つの非結合型潜時符号を用いて,空間配向3次元ボリュームにおける顔のセマンティクスとテクスチャを共通形状で生成する。
実験の結果、FENeRFは様々な顔編集タスクにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-11-30T15:23:08Z) - Lifting 2D StyleGAN for 3D-Aware Face Generation [52.8152883980813]
我々は,3次元顔生成のための事前学習済みのStyleGAN2を切断し,持ち上げるLiftedGANというフレームワークを提案する。
本モデルは,(1)StyleGAN2の潜伏空間をテクスチャ,形状,視点,照明に分解し,(2)合成画像のための3D成分を生成することができるという意味で「3D認識」である。
論文 参考訳(メタデータ) (2020-11-26T05:02:09Z) - Convolutional Generation of Textured 3D Meshes [34.20939983046376]
単視点自然画像からの2次元監視のみを用いて,三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを提案する。
我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、意味的に整合し、2D畳み込みGANで容易にモデル化できる。
本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-13T15:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。