論文の概要: A3D: Does Diffusion Dream about 3D Alignment?
- arxiv url: http://arxiv.org/abs/2406.15020v2
- Date: Tue, 15 Oct 2024 14:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:05.611147
- Title: A3D: Does Diffusion Dream about 3D Alignment?
- Title(参考訳): A3D: 拡散は3Dアライメントを夢見るか?
- Authors: Savva Ignatyev, Nina Konovalova, Daniil Selikhanovych, Oleg Voynov, Nikolay Patakin, Ilya Olkov, Dmitry Senushkin, Alexey Artemov, Anton Konushin, Alexander Filippov, Peter Wonka, Evgeny Burnaev,
- Abstract要約: 幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。
オブジェクトを共通の潜在空間に埋め込み、これらのオブジェクト間の連続的な遷移を最適化することを提案する。
3D編集やオブジェクトのハイブリッド化など,オブジェクト間のアライメントの恩恵を受けるための現実的なシナリオをいくつか提供します。
- 参考スコア(独自算出の注目度): 73.97853402817405
- License:
- Abstract: We tackle the problem of text-driven 3D generation from a geometry alignment perspective. Given a set of text prompts, we aim to generate a collection of objects with semantically corresponding parts aligned across them. Recent methods based on Score Distillation have succeeded in distilling the knowledge from 2D diffusion models to high-quality representations of the 3D objects. These methods handle multiple text queries separately, and therefore the resulting objects have a high variability in object pose and structure. However, in some applications, such as 3D asset design, it may be desirable to obtain a set of objects aligned with each other. In order to achieve the alignment of the corresponding parts of the generated objects, we propose to embed these objects into a common latent space and optimize the continuous transitions between these objects. We enforce two kinds of properties of these transitions: smoothness of the transition and plausibility of the intermediate objects along the transition. We demonstrate that both of these properties are essential for good alignment. We provide several practical scenarios that benefit from alignment between the objects, including 3D editing and object hybridization, and experimentally demonstrate the effectiveness of our method. \href{https://voyleg.github.io/a3d/}{voyleg.github.io/a3d}
- Abstract(参考訳): 幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。
テキストプロンプトのセットが与えられたら、意味的に対応する部分同士が整列したオブジェクトの集合を生成することを目指している。
近年のスコア蒸留法は, 2次元拡散モデルから高品質な3次元物体表現への知識の蒸留に成功している。
これらのメソッドは複数のテキストクエリを別々に処理するため、オブジェクトのポーズや構造に高いばらつきがある。
しかし、3Dアセット設計のようないくつかのアプリケーションでは、互いに整列したオブジェクトの集合を得るのが望ましい。
生成されたオブジェクトの対応する部分のアライメントを達成するために、これらのオブジェクトを共通の潜在空間に埋め込み、それらのオブジェクト間の連続的な遷移を最適化することを提案する。
これらの遷移の2つの性質は、遷移の滑らかさと遷移に沿った中間対象の可視性である。
これらの性質はどちらも良好なアライメントに不可欠であることを示す。
本稿では,3次元編集やオブジェクトのハイブリッド化など,オブジェクト間のアライメントの利点を活かした現実的なシナリオをいくつか提示し,本手法の有効性を実験的に実証する。
https://voyleg.github.io/a3d/}{voyleg.github.io/a3d}
関連論文リスト
- Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors [43.19801974707858]
現在の3D生成技術は、複数の高解像度オブジェクトでシーンを生成するのに苦労している。
ここでは,オープンセット3Dオブジェクトアレンジメントの課題を解決するLay-A-Sceneを紹介する。
本研究では,2次元シーン上にオブジェクトの一貫した投影を見出すことにより,オブジェクトの3次元ポーズや配置を2次元画像から推測する方法を示す。
論文 参考訳(メタデータ) (2024-06-02T09:48:19Z) - MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets [63.284244910964475]
本稿では,2次元のセマンティクスから基礎となる物質を推定する3次元アセット素材生成フレームワークを提案する。
このような先行モデルに基づいて,材料を三次元空間で解析する機構を考案する。
論文 参考訳(メタデータ) (2024-04-22T07:00:17Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。