論文の概要: Chasing Consistency in Text-to-3D Generation from a Single Image
- arxiv url: http://arxiv.org/abs/2309.03599v1
- Date: Thu, 7 Sep 2023 09:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:39:08.976540
- Title: Chasing Consistency in Text-to-3D Generation from a Single Image
- Title(参考訳): 単一画像からのテキスト3次元生成における一貫性の追求
- Authors: Yichen Ouyang, Wenhao Chai, Jiayi Ye, Dapeng Tao, Yibing Zhan, Gaoang
Wang
- Abstract要約: 一つの画像から意味的・幾何学的・飽和的・持続的テキスト・ツー・3D生成のための3段階のフレームワークであるConsist3Dを提案する。
具体的には、セマンティックエンコーディングステージは、ビューと推定から独立してトークンを学習し、セマンティック一貫性とロバスト性を促進する。
幾何符号化段階は、新しい視点推定の下で包括的幾何学的制約と再構成的制約で別のトークンを学習し、過剰適合を減らし、幾何整合を奨励する。
- 参考スコア(独自算出の注目度): 35.60887743544786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation from a single-view image is a popular but challenging
task in 3D vision. Although numerous methods have been proposed, existing works
still suffer from the inconsistency issues, including 1) semantic
inconsistency, 2) geometric inconsistency, and 3) saturation inconsistency,
resulting in distorted, overfitted, and over-saturated generations. In light of
the above issues, we present Consist3D, a three-stage framework Chasing for
semantic-, geometric-, and saturation-Consistent Text-to-3D generation from a
single image, in which the first two stages aim to learn parameterized
consistency tokens, and the last stage is for optimization. Specifically, the
semantic encoding stage learns a token independent of views and estimations,
promoting semantic consistency and robustness. Meanwhile, the geometric
encoding stage learns another token with comprehensive geometry and
reconstruction constraints under novel-view estimations, reducing overfitting
and encouraging geometric consistency. Finally, the optimization stage benefits
from the semantic and geometric tokens, allowing a low classifier-free guidance
scale and therefore preventing oversaturation. Experimental results demonstrate
that Consist3D produces more consistent, faithful, and photo-realistic 3D
assets compared to previous state-of-the-art methods. Furthermore, Consist3D
also allows background and object editing through text prompts.
- Abstract(参考訳): シングルビュー画像からのテキスト・ツー・3D生成は、3Dビジョンでは人気があるが難しい課題である。
多くの方法が提案されているが、既存の作業は相反する問題に悩まされている。
1)意味的不整合
2)幾何学的矛盾,及び
3) 飽和不整合, ゆがみ, 過度に適合し, 過飽和世代が生じる。
上記の問題に照らし合わせて,1つの画像から意味的,幾何学的,飽和的,3d生成を追求する3段階のフレームワークである consist3d を提示し,最初の2段階はパラメータ化された一貫性トークンの学習を目標とし,最後の段階は最適化のためのものである。
具体的には、セマンティックエンコーディングステージは、ビューと推定から独立したトークンを学び、セマンティック一貫性とロバスト性を促進する。
一方、幾何符号化ステージは、新しい視点推定の下で包括的幾何および再構成制約を伴う別のトークンを学習し、過剰フィッティングを低減し、幾何整合性を促進する。
最後に、最適化段階は意味的および幾何学的トークンの恩恵を受け、分類器のないガイダンススケールを小さくすることができ、したがって過飽和を防止できる。
実験により、Consist3Dは従来の最先端手法と比較して一貫性があり、忠実で、フォトリアリスティックな3Dアセットを生成することが示された。
さらにConsist3Dでは、テキストプロンプトによるバックグラウンドやオブジェクトの編集も可能である。
関連論文リスト
- TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via
Geometry-aware Diffusion Models [17.515579874426344]
Consistent-1-to-3は3D一貫性の維持の問題を大幅に軽減する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z) - Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware
Multi-view Geometry Consistency [40.56510679634943]
マルチビュー幾何整合性を利用した自己教師付きトレーニングアーキテクチャを提案する。
画素の整合性損失,奥行きの整合性損失,顔のランドマークに基づくエピポーラロスを含む,多視点整合性のための3つの新しい損失関数を設計する。
提案手法は精度が高く,特に多彩な表現,ポーズ,照明条件下では堅牢である。
論文 参考訳(メタデータ) (2020-07-24T12:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。