論文の概要: SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity
Attention
- arxiv url: http://arxiv.org/abs/2311.17834v2
- Date: Thu, 30 Nov 2023 12:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 11:24:46.411417
- Title: SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity
Attention
- Title(参考訳): SPiC-E : クロスエンティティアテンションを用いた3次元拡散モデルの構造優先
- Authors: Etai Sella, Gal Fiebelman, Noam Atia, Hadar Averbuch-Elor
- Abstract要約: 本研究では,3次元拡散モデルに構造的ガイダンスを加えるニューラルネットワークSPiC-Eを提案する。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
- 参考スコア(独自算出の注目度): 10.400213716661773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are witnessing rapid progress in automatically generating and manipulating
3D assets due to the availability of pretrained text-image diffusion models.
However, time-consuming optimization procedures are required for synthesizing
each sample, hindering their potential for democratizing 3D content creation.
Conversely, 3D diffusion models now train on million-scale 3D datasets,
yielding high-quality text-conditional 3D samples within seconds. In this work,
we present SPiC-E - a neural network that adds structural guidance to 3D
diffusion models, extending their usage beyond text-conditional generation. At
its core, our framework introduces a cross-entity attention mechanism that
allows for multiple entities (in particular, paired input and guidance 3D
shapes) to interact via their internal representations within the denoising
network. We utilize this mechanism for learning task-specific structural priors
in 3D diffusion models from auxiliary guidance shapes. We show that our
approach supports a variety of applications, including 3D stylization, semantic
shape editing and text-conditional abstraction-to-3D, which transforms
primitive-based abstractions into highly-expressive shapes. Extensive
experiments demonstrate that SPiC-E achieves SOTA performance over these tasks
while often being considerably faster than alternative methods. Importantly,
this is accomplished without tailoring our approach for any specific task.
- Abstract(参考訳): 我々は,事前学習されたテキスト画像拡散モデルの可用性により,3dアセットの自動生成と操作が急速に進展しているのを目の当たりにしている。
しかし、各サンプルの合成には時間を要する最適化手順が必要であり、3Dコンテンツ作成を民主化する可能性を妨げる。
逆に、3d拡散モデルは100万規模の3dデータセットをトレーニングし、高品質なテキスト条件付き3dサンプルを数秒で生成する。
本稿では,3次元拡散モデルに構造的ガイダンスを追加するニューラルネットワークであるspic-eを提案する。
本フレームワークのコアとなるのは,複数のエンティティ(特にペア入力と誘導3D形状)が,認知ネットワーク内の内部表現を介して対話できる,相互注意機構の導入である。
本機構を補助誘導形状から3次元拡散モデルにおけるタスク固有構造事前学習に活用する。
提案手法は, 3次元スタイリング, 意味的形状の編集, テキスト条件の抽象化-to-3Dなど, プリミティブな抽象化を高度に表現可能な形状に変換する。
大規模な実験により、SPiC-Eはこれらのタスクに対してSOTA性能を達成する一方で、代替手法よりもかなり高速であることが示されている。
重要なことは、これは特定のタスクにアプローチを合わせることなく達成されます。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient
Volumetric Encoder [59.436304016347485]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [30.951440204237166]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文 参考訳(メタデータ) (2023-06-03T11:08:38Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。