Fugu-MT 論文翻訳(概要): SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity Attention

論文の概要: SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity Attention

arxiv url: http://arxiv.org/abs/2311.17834v2
Date: Thu, 30 Nov 2023 12:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 11:24:46.411417
Title: SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity Attention
Title（参考訳）: SPiC-E : クロスエンティティアテンションを用いた3次元拡散モデルの構造優先
Authors: Etai Sella, Gal Fiebelman, Noam Atia, Hadar Averbuch-Elor
Abstract要約: 本研究では,3次元拡散モデルに構造的ガイダンスを加えるニューラルネットワークSPiC-Eを提案する。提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
参考スコア（独自算出の注目度）: 10.400213716661773
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We are witnessing rapid progress in automatically generating and manipulating 3D assets due to the availability of pretrained text-image diffusion models. However, time-consuming optimization procedures are required for synthesizing each sample, hindering their potential for democratizing 3D content creation. Conversely, 3D diffusion models now train on million-scale 3D datasets, yielding high-quality text-conditional 3D samples within seconds. In this work, we present SPiC-E - a neural network that adds structural guidance to 3D diffusion models, extending their usage beyond text-conditional generation. At its core, our framework introduces a cross-entity attention mechanism that allows for multiple entities (in particular, paired input and guidance 3D shapes) to interact via their internal representations within the denoising network. We utilize this mechanism for learning task-specific structural priors in 3D diffusion models from auxiliary guidance shapes. We show that our approach supports a variety of applications, including 3D stylization, semantic shape editing and text-conditional abstraction-to-3D, which transforms primitive-based abstractions into highly-expressive shapes. Extensive experiments demonstrate that SPiC-E achieves SOTA performance over these tasks while often being considerably faster than alternative methods. Importantly, this is accomplished without tailoring our approach for any specific task.
Abstract（参考訳）: 我々は,事前学習されたテキスト画像拡散モデルの可用性により,3dアセットの自動生成と操作が急速に進展しているのを目の当たりにしている。しかし、各サンプルの合成には時間を要する最適化手順が必要であり、3Dコンテンツ作成を民主化する可能性を妨げる。逆に、3d拡散モデルは100万規模の3dデータセットをトレーニングし、高品質なテキスト条件付き3dサンプルを数秒で生成する。本稿では,3次元拡散モデルに構造的ガイダンスを追加するニューラルネットワークであるspic-eを提案する。本フレームワークのコアとなるのは,複数のエンティティ(特にペア入力と誘導3D形状)が,認知ネットワーク内の内部表現を介して対話できる,相互注意機構の導入である。本機構を補助誘導形状から3次元拡散モデルにおけるタスク固有構造事前学習に活用する。提案手法は, 3次元スタイリング, 意味的形状の編集, テキスト条件の抽象化-to-3Dなど, プリミティブな抽象化を高度に表現可能な形状に変換する。大規模な実験により、SPiC-Eはこれらのタスクに対してSOTA性能を達成する一方で、代替手法よりもかなり高速であることが示されている。重要なことは、これは特定のタスクにアプローチを合わせることなく達成されます。

関連論文リスト

Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文参考訳（メタデータ） (2025-12-12T18:59:51Z)
Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。 XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文参考訳（メタデータ） (2024-11-22T03:52:37Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文参考訳（メタデータ） (2023-12-18T18:59:05Z)
TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。 TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。 TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文参考訳（メタデータ） (2023-12-05T10:39:37Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
Efficient Text-Guided 3D-Aware Portrait Generation with Score Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文参考訳（メタデータ） (2023-06-03T11:08:38Z)
3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文参考訳（メタデータ） (2022-11-30T01:55:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。