論文の概要: SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
- arxiv url: http://arxiv.org/abs/2212.04493v2
- Date: Wed, 22 Mar 2023 00:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:21:14.239841
- Title: SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
- Title(参考訳): sdfusion: マルチモーダルな3次元形状完了, 再構築, 生成
- Authors: Yen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander Schwing and
Liangyan Gui
- Abstract要約: 本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
- 参考スコア(独自算出の注目度): 89.47132156950194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we present a novel framework built to simplify 3D asset
generation for amateur users. To enable interactive generation, our method
supports a variety of input modalities that can be easily provided by a human,
including images, text, partially observed shapes and combinations of these,
further allowing to adjust the strength of each input. At the core of our
approach is an encoder-decoder, compressing 3D shapes into a compact latent
representation, upon which a diffusion model is learned. To enable a variety of
multi-modal inputs, we employ task-specific encoders with dropout followed by a
cross-attention mechanism. Due to its flexibility, our model naturally supports
a variety of tasks, outperforming prior works on shape completion, image-based
3D reconstruction, and text-to-3D. Most interestingly, our model can combine
all these tasks into one swiss-army-knife tool, enabling the user to perform
shape generation using incomplete shapes, images, and textual descriptions at
the same time, providing the relative weights for each input and facilitating
interactivity. Despite our approach being shape-only, we further show an
efficient method to texture the generated shape using large-scale text-to-image
models.
- Abstract(参考訳): 本稿では,アマチュアユーザのための3dアセット生成を簡略化する新しいフレームワークを提案する。
対話型生成を実現するために,画像,テキスト,部分的に観察された形状,組み合わせなど,人間が容易に提供できる様々な入力モダリティをサポートし,各入力の強度を調整できる。
我々のアプローチの核となるのはエンコーダデコーダであり、3次元形状をコンパクトな潜在表現に圧縮し、拡散モデルが学習される。
様々なマルチモーダル入力を可能にするために、ドロップアウトを伴うタスク固有エンコーダとクロスアテンション機構を用いる。
その柔軟性のため、我々のモデルは自然に様々なタスクをサポートし、形状補完、画像に基づく3d再構成、テキストから3dへの以前の作業よりも優れています。
最も興味深いのは、これらのタスクを1つのswiss-army-knifeツールに組み合わせることで、ユーザが不完全な形状、画像、テキスト記述を同時に実行し、各入力に対する相対重みを与え、対話性を促進することができることです。
本手法は形状のみであるにもかかわらず,大規模テキスト・画像モデルを用いて生成した形状をテクスチャ化する効率的な方法を示す。
関連論文リスト
- CharacterGen: Efficient 3D Character Generation from Single Images with
Multi-View Pose Canonicalization [29.560567184872085]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文 参考訳(メタデータ) (2024-02-27T05:10:59Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and
Scalability [121.44324465222498]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [55.34451258972251]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar
Creation [15.089560253798924]
本研究の目的は、制御可能で光現実的な人間のアバターを作成するために、生成拡散モデルの品質と機能を向上させることである。
我々は,3次元形態素モデルを最先端の多視点連続拡散手法に統合することで実現した。
提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文 参考訳(メタデータ) (2024-01-09T18:59:04Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient
Volumetric Encoder [59.436304016347485]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity
Attention [10.400213716661773]
本研究では,3次元拡散モデルに構造的ガイダンスを加えるニューラルネットワークSPiC-Eを提案する。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - Learning Generative Models of Shape Handles [43.41382075567803]
ハンドセットとして3次元形状を合成する生成モデルを提案する。
我々のモデルは、様々な濃度と異なる種類のハンドルを持つハンドセットを生成することができる。
得られた形状表現は直感的であり,従来の最先端技術よりも優れた品質が得られることを示す。
論文 参考訳(メタデータ) (2020-04-06T22:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。