論文の概要: A3D: Does Diffusion Dream about 3D Alignment?
- arxiv url: http://arxiv.org/abs/2406.15020v3
- Date: Wed, 16 Oct 2024 11:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:50.535099
- Title: A3D: Does Diffusion Dream about 3D Alignment?
- Title(参考訳): A3D: 拡散は3Dアライメントを夢見るか?
- Authors: Savva Ignatyev, Nina Konovalova, Daniil Selikhanovych, Oleg Voynov, Nikolay Patakin, Ilya Olkov, Dmitry Senushkin, Alexey Artemov, Anton Konushin, Alexander Filippov, Peter Wonka, Evgeny Burnaev,
- Abstract要約: 幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。
テキストプロンプトのセットが与えられたら、意味的に対応する部分同士が整列したオブジェクトの集合を生成することを目指している。
我々は、これらのオブジェクトを共通の潜在空間に埋め込み、これらのオブジェクト間の連続的な遷移を最適化することを提案する。
- 参考スコア(独自算出の注目度): 73.97853402817405
- License:
- Abstract: We tackle the problem of text-driven 3D generation from a geometry alignment perspective. Given a set of text prompts, we aim to generate a collection of objects with semantically corresponding parts aligned across them. Recent methods based on Score Distillation have succeeded in distilling the knowledge from 2D diffusion models to high-quality representations of the 3D objects. These methods handle multiple text queries separately, and therefore the resulting objects have a high variability in object pose and structure. However, in some applications, such as 3D asset design, it may be desirable to obtain a set of objects aligned with each other. In order to achieve the alignment of the corresponding parts of the generated objects, we propose to embed these objects into a common latent space and optimize the continuous transitions between these objects. We enforce two kinds of properties of these transitions: smoothness of the transition and plausibility of the intermediate objects along the transition. We demonstrate that both of these properties are essential for good alignment. We provide several practical scenarios that benefit from alignment between the objects, including 3D editing and object hybridization, and experimentally demonstrate the effectiveness of our method. https://voyleg.github.io/a3d/
- Abstract(参考訳): 幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。
テキストプロンプトのセットが与えられたら、意味的に対応する部分同士が整列したオブジェクトの集合を生成することを目指している。
近年のスコア蒸留法は, 2次元拡散モデルから高品質な3次元物体表現への知識の蒸留に成功している。
これらのメソッドは複数のテキストクエリを別々に処理するため、オブジェクトのポーズや構造に高いばらつきがある。
しかし、3Dアセット設計のようないくつかのアプリケーションでは、互いに整列したオブジェクトの集合を得るのが望ましい。
生成されたオブジェクトの対応する部分のアライメントを達成するために、これらのオブジェクトを共通の潜在空間に埋め込み、それらのオブジェクト間の連続的な遷移を最適化することを提案する。
これらの遷移の2つの性質は、遷移の滑らかさと遷移に沿った中間対象の可視性である。
これらの性質はどちらも良好なアライメントに不可欠であることを示す。
本稿では,3次元編集やオブジェクトのハイブリッド化など,オブジェクト間のアライメントの利点を活かした現実的なシナリオをいくつか提示し,本手法の有効性を実験的に実証する。
https://voyleg.github.io/a3d/
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。