論文の概要: Chasing Consistency in Text-to-3D Generation from a Single Image
- arxiv url: http://arxiv.org/abs/2309.03599v1
- Date: Thu, 7 Sep 2023 09:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:39:08.976540
- Title: Chasing Consistency in Text-to-3D Generation from a Single Image
- Title(参考訳): 単一画像からのテキスト3次元生成における一貫性の追求
- Authors: Yichen Ouyang, Wenhao Chai, Jiayi Ye, Dapeng Tao, Yibing Zhan, Gaoang
Wang
- Abstract要約: 一つの画像から意味的・幾何学的・飽和的・持続的テキスト・ツー・3D生成のための3段階のフレームワークであるConsist3Dを提案する。
具体的には、セマンティックエンコーディングステージは、ビューと推定から独立してトークンを学習し、セマンティック一貫性とロバスト性を促進する。
幾何符号化段階は、新しい視点推定の下で包括的幾何学的制約と再構成的制約で別のトークンを学習し、過剰適合を減らし、幾何整合を奨励する。
- 参考スコア(独自算出の注目度): 35.60887743544786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation from a single-view image is a popular but challenging
task in 3D vision. Although numerous methods have been proposed, existing works
still suffer from the inconsistency issues, including 1) semantic
inconsistency, 2) geometric inconsistency, and 3) saturation inconsistency,
resulting in distorted, overfitted, and over-saturated generations. In light of
the above issues, we present Consist3D, a three-stage framework Chasing for
semantic-, geometric-, and saturation-Consistent Text-to-3D generation from a
single image, in which the first two stages aim to learn parameterized
consistency tokens, and the last stage is for optimization. Specifically, the
semantic encoding stage learns a token independent of views and estimations,
promoting semantic consistency and robustness. Meanwhile, the geometric
encoding stage learns another token with comprehensive geometry and
reconstruction constraints under novel-view estimations, reducing overfitting
and encouraging geometric consistency. Finally, the optimization stage benefits
from the semantic and geometric tokens, allowing a low classifier-free guidance
scale and therefore preventing oversaturation. Experimental results demonstrate
that Consist3D produces more consistent, faithful, and photo-realistic 3D
assets compared to previous state-of-the-art methods. Furthermore, Consist3D
also allows background and object editing through text prompts.
- Abstract(参考訳): シングルビュー画像からのテキスト・ツー・3D生成は、3Dビジョンでは人気があるが難しい課題である。
多くの方法が提案されているが、既存の作業は相反する問題に悩まされている。
1)意味的不整合
2)幾何学的矛盾,及び
3) 飽和不整合, ゆがみ, 過度に適合し, 過飽和世代が生じる。
上記の問題に照らし合わせて,1つの画像から意味的,幾何学的,飽和的,3d生成を追求する3段階のフレームワークである consist3d を提示し,最初の2段階はパラメータ化された一貫性トークンの学習を目標とし,最後の段階は最適化のためのものである。
具体的には、セマンティックエンコーディングステージは、ビューと推定から独立したトークンを学び、セマンティック一貫性とロバスト性を促進する。
一方、幾何符号化ステージは、新しい視点推定の下で包括的幾何および再構成制約を伴う別のトークンを学習し、過剰フィッティングを低減し、幾何整合性を促進する。
最後に、最適化段階は意味的および幾何学的トークンの恩恵を受け、分類器のないガイダンススケールを小さくすることができ、したがって過飽和を防止できる。
実験により、Consist3Dは従来の最先端手法と比較して一貫性があり、忠実で、フォトリアリスティックな3Dアセットを生成することが示された。
さらにConsist3Dでは、テキストプロンプトによるバックグラウンドやオブジェクトの編集も可能である。
関連論文リスト
- SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling [31.945761751215134]
我々は,3次元一貫したノイズ発生,幾何に基づく勾配のゆらぎ,新しい勾配のゆらぎの損失を導入する。
我々は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合を最小限のコストで解決し,既存のスコア蒸留モデルとの整合性を実現した。
論文 参考訳(メタデータ) (2024-06-24T14:58:17Z) - DreamPolisher: Towards High-Quality Text-to-3D Generation via Geometric Diffusion [25.392909885188676]
幾何学的ガイダンスを用いた新しいガウス分割法であるDreamPolisherを提案する。
我々は、テキスト記述から、横断的な一貫性と複雑な詳細を学びます。
論文 参考訳(メタデータ) (2024-03-25T22:34:05Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware
Multi-view Geometry Consistency [40.56510679634943]
マルチビュー幾何整合性を利用した自己教師付きトレーニングアーキテクチャを提案する。
画素の整合性損失,奥行きの整合性損失,顔のランドマークに基づくエピポーラロスを含む,多視点整合性のための3つの新しい損失関数を設計する。
提案手法は精度が高く,特に多彩な表現,ポーズ,照明条件下では堅牢である。
論文 参考訳(メタデータ) (2020-07-24T12:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。