論文の概要: Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion
- arxiv url: http://arxiv.org/abs/2303.15780v1
- Date: Tue, 28 Mar 2023 07:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:01:57.231489
- Title: Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion
- Title(参考訳): instruct 3d-to-3d: テキスト命令による3d-to-3d変換
- Authors: Hiromichi Kamata, Yuiko Sakuma, Akio Hayakawa, Masato Ishii, Takuya
Narihira
- Abstract要約: Instruct 3D-to-3D applied Pretrained Image-to-Image model for 3D-to-3D conversion。
さらに,提案手法は条件としてソース3Dシーンを明示的に入力する。
- 参考スコア(独自算出の注目度): 3.3808748000661972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a high-quality 3D-to-3D conversion method, Instruct 3D-to-3D. Our
method is designed for a novel task, which is to convert a given 3D scene to
another scene according to text instructions. Instruct 3D-to-3D applies
pretrained Image-to-Image diffusion models for 3D-to-3D conversion. This
enables the likelihood maximization of each viewpoint image and high-quality 3D
generation. In addition, our proposed method explicitly inputs the source 3D
scene as a condition, which enhances 3D consistency and controllability of how
much of the source 3D scene structure is reflected. We also propose dynamic
scaling, which allows the intensity of the geometry transformation to be
adjusted. We performed quantitative and qualitative evaluations and showed that
our proposed method achieves higher quality 3D-to-3D conversions than baseline
methods.
- Abstract(参考訳): 高品質な3D-to-3D変換手法であるインストラクション3D-to-3Dを提案する。
本手法は,テキストの指示に従って,与えられた3次元シーンを別のシーンに変換する新しいタスクのために設計されている。
instruct 3d-to-3dは、3d-to-3d変換に事前訓練された画像から画像への拡散モデルを適用する。
これにより、各視点画像の最大化と高品質な3D生成が可能となる。
さらに,提案手法は,ソース3Dシーンを条件として明示的に入力し,ソース3Dシーン構造がどの程度反映されているかの3D一貫性と制御性を高める。
また,形状変換の強度を調整する動的スケーリングを提案する。
定量および定性評価を行い,提案手法がベースライン法よりも高品質な3D-3D変換を実現することを示した。
関連論文リスト
- Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [26.375689838055774]
Direct3Dは、Wildの入力画像にスケーラブルなネイティブな3D生成モデルである。
提案手法は, 直接3次元変分オートエンコーダ(D3D-VAE)と直接3次元拡散変換器(D3D-DiT)の2成分からなる。
論文 参考訳(メタデータ) (2024-05-23T17:49:37Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation [49.22974835756199]
本稿では,3次元形状生成のための新しい拡散変換器,すなわちDiT-3Dを提案する。
既存のU-Netアプローチと比較して、私たちのDiT-3Dはモデルサイズがよりスケーラブルで、より高品質な世代を生み出す。
ShapeNetデータセットの実験結果から,提案したDiT-3Dが最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2023-07-04T17:15:46Z) - HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks [101.36230756743106]
本論文は,2次元画像の中間表現として,2次元領域と3次元領域を3次元フィールドで橋渡しする3次元GANの成功に着想を得たものである。
本稿では,3次元ポートレートスタイリングのための3次元認識型GANをベースとしたHyperStyle3Dという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T07:22:05Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Mimic3D: Thriving 3D-Aware GANs via 3D-to-2D Imitation [29.959223778769513]
本稿では,3D-to-2Dの模倣という新たな学習手法を提案する。
また、3D表現学習を改善するために、ジェネレータに3D対応の畳み込みを導入する。
その結果,FFHQとAFHQ-v2のFIDスコアは512×512でそれぞれ5.4点,AFHQ-v2 Catsでは4.3点に達した。
論文 参考訳(メタデータ) (2023-03-16T02:18:41Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。