Fugu-MT 論文翻訳(概要): HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation

論文の概要: HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation

arxiv url: http://arxiv.org/abs/2407.14419v1
Date: Fri, 19 Jul 2024 15:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 16:55:32.294437
Title: HOTS3D: Hyper-Spherical Optimal Transport for Semantic Alignment of Text-to-3D Generation
Title（参考訳）: HOTS3D:テキストから3D生成のセマンティックアライメントのための超球面輸送
Authors: Zezeng Li, Weimin Wang, WenHai Li, Na Lei, Xianfeng Gu,
Abstract要約: 最近のCLIP誘導3D生成法は,有望な結果を得たが,入力テキストに適合した忠実な3D形状の生成に苦慮している。本稿では,テキスト特徴と画像特徴とをSOT(spherical optimal transport)で整列させることにより,このギャップを効果的に橋渡しするHOTS3Dを提案する。最適にマッピングされた特徴により、拡散ベースのジェネレータとNerfベースのデコーダを使用して、それらを3次元形状に変換する。
参考スコア（独自算出の注目度）: 15.34704512558617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent CLIP-guided 3D generation methods have achieved promising results but struggle with generating faithful 3D shapes that conform with input text due to the gap between text and image embeddings. To this end, this paper proposes HOTS3D which makes the first attempt to effectively bridge this gap by aligning text features to the image features with spherical optimal transport (SOT). However, in high-dimensional situations, solving the SOT remains a challenge. To obtain the SOT map for high-dimensional features obtained from CLIP encoding of two modalities, we mathematically formulate and derive the solution based on Villani's theorem, which can directly align two hyper-sphere distributions without manifold exponential maps. Furthermore, we implement it by leveraging input convex neural networks (ICNNs) for the optimal Kantorovich potential. With the optimally mapped features, a diffusion-based generator and a Nerf-based decoder are subsequently utilized to transform them into 3D shapes. Extensive qualitative and qualitative comparisons with state-of-the-arts demonstrate the superiority of the proposed HOTS3D for 3D shape generation, especially on the consistency with text semantics.
Abstract（参考訳）: 近年のCLIP誘導3D生成法は, テキストと画像埋め込みのギャップにより, 入力テキストに適合する忠実な3D形状の生成に苦慮している。そこで本稿では,テキスト特徴と画像特徴とをSOT(spherical optimal transport)に整合させることにより,このギャップを効果的に橋渡しするHOTS3Dを提案する。しかし、高次元の状況では、SOTを解くことは依然として困難である。 2つのモジュラリティのCLIP符号化から得られる高次元特徴に対するSOT写像を得るため、多様体の指数写像を使わずに2つの超球分布を直接整列できるヴィラニの定理に基づいて解を数学的に定式化し導出する。さらに、入力凸ニューラルネットワーク(ICNN)を最適カントロビッチポテンシャルに活用して実装する。最適にマッピングされた特徴により、拡散ベースのジェネレータとNerfベースのデコーダを使用して、それらを3次元形状に変換する。特にテキストセマンティクスとの整合性において,3次元形状生成におけるHOTS3Dの優位性を示す。

関連論文リスト

TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment [58.46706158310462]
TIGaussian は 3D Gaussian Splatting (3DGS) 特性を利用して、相互モダリティアライメントを強化する。我々のマルチブランチ3DGSトークン化器は、3DGS構造の固有の性質をコンパクトな潜在表現に分解する。テキスト3D投影モジュールは、テキスト3Dアライメントを改善するために、3D機能をテキスト埋め込みスペースに適応的にマッピングする。
論文参考訳（メタデータ） (2026-01-27T06:30:32Z)
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文参考訳（メタデータ） (2024-11-12T18:59:32Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。 MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文参考訳（メタデータ） (2024-03-15T02:57:20Z)
TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。 TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。 TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文参考訳（メタデータ） (2023-12-05T10:39:37Z)
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。 2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文参考訳（メタデータ） (2023-11-09T15:51:27Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文参考訳（メタデータ） (2023-06-29T17:17:57Z)
DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文参考訳（メタデータ） (2023-03-24T03:56:23Z)
TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文参考訳（メタデータ） (2023-03-23T13:53:16Z)
Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文参考訳（メタデータ） (2022-12-28T18:23:47Z)
3D Dense Face Alignment with Fused Features by Aggregating CNNs and GCNs [28.7443367565456]
これは、標準畳み込みニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)をシームレスに結合することで達成される。 CNNとGCNの異なる層やステージにまたがる特徴を反復的に融合させることで,我々のアプローチは高密度な顔アライメントと3次元顔再構成を同時に実現することができる。いくつかの挑戦的なデータセットの実験により、我々の手法は2次元および3次元の顔アライメントタスクにおける最先端のアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2022-03-09T11:07:10Z)
Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D Shape Synthesis [90.26556260531707]
DMTetは粗いボクセルのような単純なユーザーガイドを用いて高解像度の3次元形状を合成できる条件付き生成モデルである。メッシュなどの明示的な表現を直接生成する深部3次元生成モデルとは異なり、我々のモデルは任意の位相で形状を合成することができる。
論文参考訳（メタデータ） (2021-11-08T05:29:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。