論文の概要: HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2407.14419v2
- Date: Fri, 04 Jul 2025 16:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.083229
- Title: HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation
- Title(参考訳): HOTS3D:テキストから3D生成のセマンティックアライメントのための超球面輸送
- Authors: Zezeng Li, Weimin Wang, Yuming Zhao, Wenhai Li, Na Lei, Xianfeng Gu,
- Abstract要約: 最近のCLIP誘導3D生成法は,有望な結果を得たが,入力テキストに適合した忠実な3D形状の生成に苦慮している。
本稿では,テキスト特徴と画像特徴とを球形最適輸送(SOT)で整列させることにより,このギャップを効果的に橋渡しするHOTS3Dを提案する。
- 参考スコア(独自算出の注目度): 16.34494548081897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent CLIP-guided 3D generation methods have achieved promising results but struggle with generating faithful 3D shapes that conform with input text due to the gap between text and image embeddings. To this end, this paper proposes HOTS3D which makes the first attempt to effectively bridge this gap by aligning text features to the image features with spherical optimal transport(SOT). However, in high-dimensional situations, solving the SOT remains a challenge. To obtain the SOT map for high-dimensional features obtained from CLIP encoding of two modalities, we mathematically formulate and derive the solution based on Villani's theorem, which can directly align two hyper-sphere distributions without manifold exponential maps. Furthermore, we implement it by leveraging input convex neural networks (ICNNs) for the optimal Kantorovich potential. With the optimally mapped features, a diffusion-based generator is utilized to decode them into 3D shapes. Extensive quantitative and qualitative comparisons with state-of-the-art methods demonstrate the superiority of HOTS3D for text-to-3D generation, especially in the consistency with text semantics.
- Abstract(参考訳): 近年のCLIP誘導3D生成法は, テキストと画像埋め込みのギャップにより, 入力テキストに適合する忠実な3D形状の生成に苦慮している。
そこで本稿では,テキスト特徴と画像特徴とをSOT(spherical optimal transport)で整列させることにより,このギャップを効果的に橋渡しするHOTS3Dを提案する。
しかし、高次元の状況では、SOTを解くことは依然として困難である。
2つのモジュラリティのCLIP符号化から得られる高次元特徴に対するSOT写像を得るため、多様体の指数写像を使わずに2つの超球分布を直接整列できるヴィラニの定理に基づいて解を数学的に定式化し導出する。
さらに、入力凸ニューラルネットワーク(ICNN)を最適カントロビッチポテンシャルに活用して実装する。
最適にマッピングされた特徴により、拡散ベースのジェネレータを使用してそれらを3次元形状にデコードする。
テキストから3D生成におけるHOTS3Dの優位性,特にテキストセマンティクスとの整合性を示す。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text
Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。
我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文 参考訳(メタデータ) (2023-06-29T17:17:57Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - 3D Dense Face Alignment with Fused Features by Aggregating CNNs and GCNs [28.7443367565456]
これは、標準畳み込みニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)をシームレスに結合することで達成される。
CNNとGCNの異なる層やステージにまたがる特徴を反復的に融合させることで,我々のアプローチは高密度な顔アライメントと3次元顔再構成を同時に実現することができる。
いくつかの挑戦的なデータセットの実験により、我々の手法は2次元および3次元の顔アライメントタスクにおける最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-09T11:07:10Z) - Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D
Shape Synthesis [90.26556260531707]
DMTetは粗いボクセルのような単純なユーザーガイドを用いて高解像度の3次元形状を合成できる条件付き生成モデルである。
メッシュなどの明示的な表現を直接生成する深部3次元生成モデルとは異なり、我々のモデルは任意の位相で形状を合成することができる。
論文 参考訳(メタデータ) (2021-11-08T05:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。