論文の概要: Sketch and Text Guided Diffusion Model for Colored Point Cloud
Generation
- arxiv url: http://arxiv.org/abs/2308.02874v1
- Date: Sat, 5 Aug 2023 13:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:08:08.581727
- Title: Sketch and Text Guided Diffusion Model for Colored Point Cloud
Generation
- Title(参考訳): 色点雲生成のためのスケッチとテキスト誘導拡散モデル
- Authors: Zijie Wu, Yaonan Wang, Mingtao Feng, He Xie, Ajmal Mian
- Abstract要約: 拡散確率モデルは、テキストガイド画像生成において顕著な成功を収めた。
しかし、3Dモデルとそれらの記述を含む十分なデータが不足しているため、依然として3D形状の生成は困難である。
色付き点雲生成のためのスケッチとテキストガイド付き確率拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 41.59468694593017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion probabilistic models have achieved remarkable success in text
guided image generation. However, generating 3D shapes is still challenging due
to the lack of sufficient data containing 3D models along with their
descriptions. Moreover, text based descriptions of 3D shapes are inherently
ambiguous and lack details. In this paper, we propose a sketch and text guided
probabilistic diffusion model for colored point cloud generation that
conditions the denoising process jointly with a hand drawn sketch of the object
and its textual description. We incrementally diffuse the point coordinates and
color values in a joint diffusion process to reach a Gaussian distribution.
Colored point cloud generation thus amounts to learning the reverse diffusion
process, conditioned by the sketch and text, to iteratively recover the desired
shape and color. Specifically, to learn effective sketch-text embedding, our
model adaptively aggregates the joint embedding of text prompt and the sketch
based on a capsule attention network. Our model uses staged diffusion to
generate the shape and then assign colors to different parts conditioned on the
appearance prompt while preserving precise shapes from the first stage. This
gives our model the flexibility to extend to multiple tasks, such as appearance
re-editing and part segmentation. Experimental results demonstrate that our
model outperforms recent state-of-the-art in point cloud generation.
- Abstract(参考訳): 拡散確率モデルはテキスト誘導画像生成において顕著な成功を収めている。
しかし、3dモデルを含む十分なデータがないため、3d形状の生成は依然として困難である。
さらに、テキストベースの3次元形状の記述は本質的に曖昧で詳細が欠けている。
本稿では,物体の手書きスケッチとテキスト記述を併用した色点雲生成のためのスケッチとテキスト誘導確率拡散モデルを提案する。
ジョイント拡散過程において点座標と色値を漸進的に拡散してガウス分布に達する。
したがって、色点雲の生成は、スケッチとテキストによって条件づけられた逆拡散過程を学習し、所望の形状と色を反復的に復元する。
特に,効果的なスケッチテキスト埋め込みを学ぶために,本モデルはカプセルアテンションネットワークに基づいて,テキストプロンプトとスケッチの結合埋め込みを適応的に集約する。
本モデルでは, 形状生成に段階拡散を用い, 外観プロンプトの異なる部位に色を割り当て, 正確な形状を第一段階から保存する。
これにより、外観再編集や部分分割など、複数のタスクに拡張する柔軟性が得られます。
実験により,本モデルが最近のポイントクラウド生成技術より優れていることが示された。
関連論文リスト
- EXIM: A Hybrid Explicit-Implicit Representation for Text-Guided 3D Shape
Generation [124.27302003578903]
本稿では,3次元形状を生成するための新しいテキスト誘導手法を提案する。
我々は,明示的表現と暗黙的表現の強みを組み合わせたハイブリッド3D表現,すなわちEXIMを活用する。
テキスト誘導型3次元形状を用いた室内シーンを一貫したスタイルで生成する手法の適用性を示した。
論文 参考訳(メタデータ) (2023-11-03T05:01:51Z) - Sin3DM: Learning a Diffusion Model from a Single 3D Textured Shape [46.31314488932164]
Sin3DMは1つの3次元テクスチャ形状から内部パッチ分布を学習する拡散モデルである。
提案手法は, 3次元形状の生成品質において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-24T17:57:15Z) - DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross
Diffusion [68.39543754708124]
DiffFactoは,部品レベルの制御で形状の分布を学習する新しい確率的生成モデルである。
実験により,複数の制御軸を持つ新しい形状を生成可能であることが示された。
最先端のパートレベルの生成品質を実現し、可塑性かつコヒーレントな形状を生成する。
論文 参考訳(メタデータ) (2023-05-03T06:38:35Z) - SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation [11.828311976126301]
部分レベルの暗黙的3次元表現に基づくカスケード拡散モデルを提案する。
提案モデルでは,最先端の生成品質を実現し,条件付き設定での付加的なトレーニングを伴わずに,部分レベルの形状の編集と操作が可能となる。
論文 参考訳(メタデータ) (2023-03-21T23:43:58Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z) - DiffusionSDF: Conditional Generative Modeling of Signed Distance
Functions [42.015077094731815]
DiffusionSDFは、形状の完全化、単一ビュー再構成、および実走査点雲の再構成のための生成モデルである。
我々は、ニューラルネットワークを介して様々な信号(点雲、2次元画像など)の幾何をパラメータ化するために、ニューラルネットワークに署名された距離関数(SDF)を用いる。
論文 参考訳(メタデータ) (2022-11-24T18:59:01Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。