論文の概要: 3D-Aware Multi-Class Image-to-Image Translation with NeRFs
- arxiv url: http://arxiv.org/abs/2303.15012v1
- Date: Mon, 27 Mar 2023 08:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:17:45.302366
- Title: 3D-Aware Multi-Class Image-to-Image Translation with NeRFs
- Title(参考訳): NeRFを用いた3次元マルチクラス画像変換
- Authors: Senmao Li, Joost van de Weijer, Yaxing Wang, Fahad Shahbaz Khan,
Meiqin Liu, Jian Yang
- Abstract要約: 3D-Aware I2I(3D-Aware I2I)翻訳のための3D-Aware GANについて検討した。
我々は、この学習プロセスを多クラス3D対応のGANステップと3D対応のI2I翻訳ステップに分離する。
2つのデータセットに関する広範な実験において、我々は多視点一貫性を持つ3次元認識型I2I翻訳を成功させた。
- 参考スコア(独自算出の注目度): 82.27932197385748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D-aware generative models (3D-aware GANs) combined with
Neural Radiance Fields (NeRF) have achieved impressive results. However no
prior works investigate 3D-aware GANs for 3D consistent multi-class
image-to-image (3D-aware I2I) translation. Naively using 2D-I2I translation
methods suffers from unrealistic shape/identity change. To perform 3D-aware
multi-class I2I translation, we decouple this learning process into a
multi-class 3D-aware GAN step and a 3D-aware I2I translation step. In the first
step, we propose two novel techniques: a new conditional architecture and an
effective training strategy. In the second step, based on the well-trained
multi-class 3D-aware GAN architecture, that preserves view-consistency, we
construct a 3D-aware I2I translation system. To further reduce the
view-consistency problems, we propose several new techniques, including a
U-net-like adaptor network design, a hierarchical representation constrain and
a relative regularization loss. In extensive experiments on two datasets,
quantitative and qualitative results demonstrate that we successfully perform
3D-aware I2I translation with multi-view consistency.
- Abstract(参考訳): ニューラルラジアンス場(NeRF)と組み合わせた3D認識生成モデル(3D認識GAN)の最近の進歩は、目覚ましい成果を得た。
しかし、3D-Aware I2I (3D-Aware I2I) 翻訳のための3D-Aware GANの研究は行われていない。
2D-I2I翻訳法は非現実的な形状/同一性の変化に悩まされる。
3D対応の多クラスI2I翻訳を行うために,この学習プロセスを多クラス対応のGANステップと3D対応のI2I翻訳ステップに分離する。
最初のステップでは、新しい条件付きアーキテクチャと効果的なトレーニング戦略の2つの新しい手法を提案する。
第2のステップでは、ビュー一貫性を保ったマルチクラス3D対応GANアーキテクチャに基づいて、3D対応I2I翻訳システムを構築する。
ビュー整合性の問題をさらに軽減するため,U-netライクなアダプタネットワーク設計,階層的表現制約,相対正規化損失など,いくつかの新しい手法を提案する。
2つのデータセットに関する広範囲な実験において、定量的および定性的な結果から、マルチビュー一貫性を備えた3d対応i2i翻訳を成功させた。
関連論文リスト
- MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration [29.657854912416038]
ユーザクエリから3次元制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。
このマルチモーダルエージェントパイプラインは、人間のプロのコラボレーションを模倣することにより、3D制御可能なオブジェクトによる画像の効果的かつ自動生成を容易にする。
我々はT2I-3DisBench(3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。
論文 参考訳(メタデータ) (2024-08-20T07:37:23Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Mimic3D: Thriving 3D-Aware GANs via 3D-to-2D Imitation [29.959223778769513]
本稿では,3D-to-2Dの模倣という新たな学習手法を提案する。
また、3D表現学習を改善するために、ジェネレータに3D対応の畳み込みを導入する。
その結果,FFHQとAFHQ-v2のFIDスコアは512×512でそれぞれ5.4点,AFHQ-v2 Catsでは4.3点に達した。
論文 参考訳(メタデータ) (2023-03-16T02:18:41Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Lifting 2D StyleGAN for 3D-Aware Face Generation [52.8152883980813]
我々は,3次元顔生成のための事前学習済みのStyleGAN2を切断し,持ち上げるLiftedGANというフレームワークを提案する。
本モデルは,(1)StyleGAN2の潜伏空間をテクスチャ,形状,視点,照明に分解し,(2)合成画像のための3D成分を生成することができるという意味で「3D認識」である。
論文 参考訳(メタデータ) (2020-11-26T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。