論文の概要: Any-to-3D Generation via Hybrid Diffusion Supervision
- arxiv url: http://arxiv.org/abs/2411.14715v1
- Date: Fri, 22 Nov 2024 03:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:04.051724
- Title: Any-to-3D Generation via Hybrid Diffusion Supervision
- Title(参考訳): ハイブリッド拡散シミュレーションによるAny-to-3D生成
- Authors: Yijun Fan, Yiwei Ma, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
- 参考スコア(独自算出の注目度): 67.54197818071464
- License:
- Abstract: Recent progress in 3D object generation has been fueled by the strong priors offered by diffusion models. However, existing models are tailored to specific tasks, accommodating only one modality at a time and necessitating retraining to change modalities. Given an image-to-3D model and a text prompt, a naive approach is to convert text prompts to images and then use the image-to-3D model for generation. This approach is both time-consuming and labor-intensive, resulting in unavoidable information loss during modality conversion. To address this, we introduce XBind, a unified framework for any-to-3D generation using cross-modal pre-alignment techniques. XBind integrates an multimodal-aligned encoder with pre-trained diffusion models to generate 3D objects from any modalities, including text, images, and audio. We subsequently present a novel loss function, termed Modality Similarity (MS) Loss, which aligns the embeddings of the modality prompts and the rendered images, facilitating improved alignment of the 3D objects with multiple modalities. Additionally, Hybrid Diffusion Supervision combined with a Three-Phase Optimization process improves the quality of the generated 3D objects. Extensive experiments showcase XBind's broad generation capabilities in any-to-3D scenarios. To our knowledge, this is the first method to generate 3D objects from any modality prompts. Project page: https://zeroooooooow1440.github.io/.
- Abstract(参考訳): 3次元オブジェクト生成の最近の進歩は、拡散モデルによって提供される強い先行性によって加速されている。
しかし、既存のモデルは特定のタスクに合わせて調整されており、一度に1つのモダリティのみを調節し、モダリティを変更するために再訓練を必要とする。
画像から3Dモデルとテキストへのプロンプトが与えられた場合、単純なアプローチは、テキストからのプロンプトを画像に変換し、生成に画像から3Dモデルを使用することである。
このアプローチは時間がかかり、労力がかかるため、モダリティ変換時に避けられない情報損失が発生する。
そこで本研究では,XBindについて紹介する。XBindは任意の3次元生成のためのクロスモーダルプリアライメント技術を用いた統合フレームワークである。
XBindは、マルチモーダル整列エンコーダと事前訓練された拡散モデルを統合し、テキスト、画像、オーディオを含むあらゆるモダリティから3Dオブジェクトを生成する。
その後、モーダリティ類似性(MS)ロスと呼ばれる新しい損失関数を提示し、モーダリティプロンプトとレンダリング画像の埋め込みを整列させ、複数のモーダリティを持つ3Dオブジェクトのアライメントを改善する。
さらに、ハイブリッド拡散スーパービジョンと3相最適化プロセスを組み合わせることで、生成された3Dオブジェクトの品質が向上する。
大規模な実験では、XBindのあらゆる3Dシナリオで幅広い生成能力を示す。
我々の知る限りでは、これはあらゆるモダリティプロンプトから3Dオブジェクトを生成する最初の方法である。
プロジェクトページ: https://zerooooooooow1440.github.io/.com
関連論文リスト
- OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation [0.0]
編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。
編集可能な3Dモデルを生成し,対象とする連続時間無制限の3Dビデオを生成するために,単一の画像を使用する方法と理論であるOneTo3Dを提案する。
論文 参考訳(メタデータ) (2024-05-10T15:44:11Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View
Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文 参考訳(メタデータ) (2023-11-14T03:40:25Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。