論文の概要: SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
- arxiv url: http://arxiv.org/abs/2212.04493v2
- Date: Wed, 22 Mar 2023 00:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:21:14.239841
- Title: SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
- Title(参考訳): sdfusion: マルチモーダルな3次元形状完了, 再構築, 生成
- Authors: Yen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander Schwing and
Liangyan Gui
- Abstract要約: 本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
- 参考スコア(独自算出の注目度): 89.47132156950194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we present a novel framework built to simplify 3D asset
generation for amateur users. To enable interactive generation, our method
supports a variety of input modalities that can be easily provided by a human,
including images, text, partially observed shapes and combinations of these,
further allowing to adjust the strength of each input. At the core of our
approach is an encoder-decoder, compressing 3D shapes into a compact latent
representation, upon which a diffusion model is learned. To enable a variety of
multi-modal inputs, we employ task-specific encoders with dropout followed by a
cross-attention mechanism. Due to its flexibility, our model naturally supports
a variety of tasks, outperforming prior works on shape completion, image-based
3D reconstruction, and text-to-3D. Most interestingly, our model can combine
all these tasks into one swiss-army-knife tool, enabling the user to perform
shape generation using incomplete shapes, images, and textual descriptions at
the same time, providing the relative weights for each input and facilitating
interactivity. Despite our approach being shape-only, we further show an
efficient method to texture the generated shape using large-scale text-to-image
models.
- Abstract(参考訳): 本稿では,アマチュアユーザのための3dアセット生成を簡略化する新しいフレームワークを提案する。
対話型生成を実現するために,画像,テキスト,部分的に観察された形状,組み合わせなど,人間が容易に提供できる様々な入力モダリティをサポートし,各入力の強度を調整できる。
我々のアプローチの核となるのはエンコーダデコーダであり、3次元形状をコンパクトな潜在表現に圧縮し、拡散モデルが学習される。
様々なマルチモーダル入力を可能にするために、ドロップアウトを伴うタスク固有エンコーダとクロスアテンション機構を用いる。
その柔軟性のため、我々のモデルは自然に様々なタスクをサポートし、形状補完、画像に基づく3d再構成、テキストから3dへの以前の作業よりも優れています。
最も興味深いのは、これらのタスクを1つのswiss-army-knifeツールに組み合わせることで、ユーザが不完全な形状、画像、テキスト記述を同時に実行し、各入力に対する相対重みを与え、対話性を促進することができることです。
本手法は形状のみであるにもかかわらず,大規模テキスト・画像モデルを用いて生成した形状をテクスチャ化する効率的な方法を示す。
関連論文リスト
- Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。
XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文 参考訳(メタデータ) (2024-11-22T03:52:37Z) - GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization [27.55341255800119]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文 参考訳(メタデータ) (2024-02-27T05:10:59Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation [14.064983137553353]
我々は、制御可能な光リアルな人間のアバターを作成するために、生成拡散モデルの品質と機能を高めることを目的としている。
我々は,3次元形態素モデルを最先端の多視点拡散手法に統合することで実現した。
提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文 参考訳(メタデータ) (2024-01-09T18:59:04Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation [105.97545053660619]
テキスト誘導型3次元形状生成手法DreamStoneを提案する。
画像を使ってテキストと形状のギャップを埋め、ペアのテキストと3Dデータを必要とせずに3Dの形状を生成する。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合でき、生成空間を拡大し、生成忠実性を向上させることができる。
論文 参考訳(メタデータ) (2023-03-24T03:56:23Z) - Learning Generative Models of Shape Handles [43.41382075567803]
ハンドセットとして3次元形状を合成する生成モデルを提案する。
我々のモデルは、様々な濃度と異なる種類のハンドルを持つハンドセットを生成することができる。
得られた形状表現は直感的であり,従来の最先端技術よりも優れた品質が得られることを示す。
論文 参考訳(メタデータ) (2020-04-06T22:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。