論文の概要: HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry
for Enhanced 3D Text2Shape Generation
- arxiv url: http://arxiv.org/abs/2403.00372v1
- Date: Fri, 1 Mar 2024 08:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:45:01.705874
- Title: HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry
for Enhanced 3D Text2Shape Generation
- Title(参考訳): HyperSDFusion:3次元テキスト2形状生成のための言語と幾何学の階層構造をブリッジする
- Authors: Zhiying Leng, Tolga Birdal, Xiaohui Liang and Federico Tombari
- Abstract要約: 与えられたテキストから3次元形状を生成する二分岐拡散モデルを提案する。
双曲空間におけるテキストと3次元形状の階層的表現を学習する。
本手法は,テキスト・ツー・シェイプ生成のための双曲的階層表現を初めて探求する手法である。
- 参考スコア(独自算出の注目度): 61.124954308976925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D shape generation from text is a fundamental task in 3D representation
learning. The text-shape pairs exhibit a hierarchical structure, where a
general text like "chair" covers all 3D shapes of the chair, while more
detailed prompts refer to more specific shapes. Furthermore, both text and 3D
shapes are inherently hierarchical structures. However, existing Text2Shape
methods, such as SDFusion, do not exploit that. In this work, we propose
HyperSDFusion, a dual-branch diffusion model that generates 3D shapes from a
given text. Since hyperbolic space is suitable for handling hierarchical data,
we propose to learn the hierarchical representations of text and 3D shapes in
hyperbolic space. First, we introduce a hyperbolic text-image encoder to learn
the sequential and multi-modal hierarchical features of text in hyperbolic
space. In addition, we design a hyperbolic text-graph convolution module to
learn the hierarchical features of text in hyperbolic space. In order to fully
utilize these text features, we introduce a dual-branch structure to embed text
features in 3D feature space. At last, to endow the generated 3D shapes with a
hierarchical structure, we devise a hyperbolic hierarchical loss. Our method is
the first to explore the hyperbolic hierarchical representation for
text-to-shape generation. Experimental results on the existing text-to-shape
paired dataset, Text2Shape, achieved state-of-the-art results.
- Abstract(参考訳): テキストからの3次元形状生成は,3次元表現学習における基本課題である。
テキスト形状のペアは階層構造を持ち、椅子のような一般的なテキストは椅子のすべての3次元形状をカバーし、より詳細なプロンプトはより具体的な形状を参照する。
さらに、テキストと3d形状は本質的に階層構造である。
しかし、SDFusionのような既存のText2Shapeメソッドはそれを利用しない。
本研究では,与えられたテキストから3次元形状を生成する2分岐拡散モデルHyperSDFusionを提案する。
双曲空間は階層データを扱うのに適したため,双曲空間におけるテキストと3次元形状の階層表現を学習することを提案する。
まず、双曲的テキスト画像エンコーダを導入し、双曲的空間におけるテキストのシーケンシャルかつマルチモーダルな階層的特徴を学習する。
さらに,双曲的テキストグラフ畳み込みモジュールを設計し,双曲的空間におけるテキストの階層的特徴を学習する。
テキスト機能を完全に活用するために,テキスト機能を3次元特徴空間に埋め込むデュアルブランチ構造を導入する。
最後に、生成された3d形状に階層構造を与えるため、双曲的階層的損失を考案する。
本手法は,テキスト対形状生成のための双曲的階層表現を初めて検討した。
既存のテキスト対形状のペアデータセットであるText2Shapeの実験結果は、最先端の結果を得た。
関連論文リスト
- Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Diffusion-SDF: Text-to-Shape via Voxelized Diffusion [90.85011923436593]
本研究では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。
本研究では,Diffusion-SDFが与えられたテキスト記述によく適合する高品質な3次元形状と,より多様化した3次元形状の両方を生成することを示す。
論文 参考訳(メタデータ) (2022-12-06T19:46:47Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - ShapeCrafter: A Recursive Text-Conditioned 3D Shape Generation Model [16.431391515731367]
テキスト条件付き3D形状を生成する既存の方法は、テキストプロンプト全体を消費し、単一のステップで3D形状を生成する。
初期フレーズに条件付き3次元形状分布を生成する手法を提案する。
結果から,本手法はテキスト記述と整合した形状を生成でき,さらに多くのフレーズが追加されるにつれて形が徐々に進化していくことが明らかとなった。
論文 参考訳(メタデータ) (2022-07-19T17:59:01Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。