論文の概要: SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
- arxiv url: http://arxiv.org/abs/2212.04493v2
- Date: Wed, 22 Mar 2023 00:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:21:14.239841
- Title: SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
- Title(参考訳): sdfusion: マルチモーダルな3次元形状完了, 再構築, 生成
- Authors: Yen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander Schwing and
Liangyan Gui
- Abstract要約: 本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
- 参考スコア(独自算出の注目度): 89.47132156950194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we present a novel framework built to simplify 3D asset
generation for amateur users. To enable interactive generation, our method
supports a variety of input modalities that can be easily provided by a human,
including images, text, partially observed shapes and combinations of these,
further allowing to adjust the strength of each input. At the core of our
approach is an encoder-decoder, compressing 3D shapes into a compact latent
representation, upon which a diffusion model is learned. To enable a variety of
multi-modal inputs, we employ task-specific encoders with dropout followed by a
cross-attention mechanism. Due to its flexibility, our model naturally supports
a variety of tasks, outperforming prior works on shape completion, image-based
3D reconstruction, and text-to-3D. Most interestingly, our model can combine
all these tasks into one swiss-army-knife tool, enabling the user to perform
shape generation using incomplete shapes, images, and textual descriptions at
the same time, providing the relative weights for each input and facilitating
interactivity. Despite our approach being shape-only, we further show an
efficient method to texture the generated shape using large-scale text-to-image
models.
- Abstract(参考訳): 本稿では,アマチュアユーザのための3dアセット生成を簡略化する新しいフレームワークを提案する。
対話型生成を実現するために,画像,テキスト,部分的に観察された形状,組み合わせなど,人間が容易に提供できる様々な入力モダリティをサポートし,各入力の強度を調整できる。
我々のアプローチの核となるのはエンコーダデコーダであり、3次元形状をコンパクトな潜在表現に圧縮し、拡散モデルが学習される。
様々なマルチモーダル入力を可能にするために、ドロップアウトを伴うタスク固有エンコーダとクロスアテンション機構を用いる。
その柔軟性のため、我々のモデルは自然に様々なタスクをサポートし、形状補完、画像に基づく3d再構成、テキストから3dへの以前の作業よりも優れています。
最も興味深いのは、これらのタスクを1つのswiss-army-knifeツールに組み合わせることで、ユーザが不完全な形状、画像、テキスト記述を同時に実行し、各入力に対する相対重みを与え、対話性を促進することができることです。
本手法は形状のみであるにもかかわらず,大規模テキスト・画像モデルを用いて生成した形状をテクスチャ化する効率的な方法を示す。
関連論文リスト
- Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation [58.77520205498394]
本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。
フレームワークは3次元形状生成とテクスチャ生成で構成されている。
本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
論文 参考訳(メタデータ) (2025-02-20T04:22:30Z) - Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters [86.13319549186959]
我々は3次元ヒューマノイドモデルを1秒未満でキャラクターアニメーションに対応させる新しいデータ駆動方式であるMake-It-Animatableを提案する。
我々のフレームワークは、高品質なブレンドウェイト、骨、ポーズトランスフォーメーションを生成します。
既存の手法と比較して,本手法は品質と速度の両方において著しく改善されている。
論文 参考訳(メタデータ) (2024-11-27T10:18:06Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization [27.55341255800119]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文 参考訳(メタデータ) (2024-02-27T05:10:59Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation [14.064983137553353]
我々は、制御可能な光リアルな人間のアバターを作成するために、生成拡散モデルの品質と機能を高めることを目的としている。
我々は,3次元形態素モデルを最先端の多視点拡散手法に統合することで実現した。
提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文 参考訳(メタデータ) (2024-01-09T18:59:04Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - Learning Generative Models of Shape Handles [43.41382075567803]
ハンドセットとして3次元形状を合成する生成モデルを提案する。
我々のモデルは、様々な濃度と異なる種類のハンドルを持つハンドセットを生成することができる。
得られた形状表現は直感的であり,従来の最先端技術よりも優れた品質が得られることを示す。
論文 参考訳(メタデータ) (2020-04-06T22:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。