論文の概要: LaGeM: A Large Geometry Model for 3D Representation Learning and Diffusion
- arxiv url: http://arxiv.org/abs/2410.01295v1
- Date: Wed, 2 Oct 2024 07:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:59:16.072991
- Title: LaGeM: A Large Geometry Model for 3D Representation Learning and Diffusion
- Title(参考訳): LaGeM:3次元表現学習と拡散のための大規模幾何学モデル
- Authors: Biao Zhang, Peter Wonka,
- Abstract要約: 本稿では3次元モデルを圧縮された潜在空間にマッピングする新しい階層型オートエンコーダを提案する。
このモデルは,高分解能な幾何学的詳細を忠実に表現しながら,広範囲な3次元モデルを表現するために使用できることを示す。
- 参考スコア(独自算出の注目度): 46.76882780184126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel hierarchical autoencoder that maps 3D models into a highly compressed latent space. The hierarchical autoencoder is specifically designed to tackle the challenges arising from large-scale datasets and generative modeling using diffusion. Different from previous approaches that only work on a regular image or volume grid, our hierarchical autoencoder operates on unordered sets of vectors. Each level of the autoencoder controls different geometric levels of detail. We show that the model can be used to represent a wide range of 3D models while faithfully representing high-resolution geometry details. The training of the new architecture takes 0.70x time and 0.58x memory compared to the baseline. We also explore how the new representation can be used for generative modeling. Specifically, we propose a cascaded diffusion framework where each stage is conditioned on the previous stage. Our design extends existing cascaded designs for image and volume grids to vector sets.
- Abstract(参考訳): 本稿では3次元モデルを高度に圧縮された潜在空間にマッピングする新しい階層型オートエンコーダを提案する。
階層型オートエンコーダは、大規模なデータセットや拡散を用いた生成的モデリングから生じる課題に対処するように設計されている。
通常の画像やボリュームグリッドでしか動作しない従来のアプローチとは異なり、階層的オートエンコーダは順序のないベクトルの集合で動作する。
オートエンコーダの各レベルは、異なる幾何学的詳細レベルを制御する。
このモデルは,高分解能な幾何学的詳細を忠実に表現しながら,広範囲な3次元モデルを表現するために使用できることを示す。
新しいアーキテクチャのトレーニングには、ベースラインと比較して0.70倍の時間と0.58倍のメモリが必要だ。
また、新しい表現が生成モデリングにどのように使われるかについても検討する。
具体的には,各ステージを前段に条件付けしたケースケード拡散フレームワークを提案する。
我々の設計は、画像とボリュームグリッドの既存のカスケード設計をベクトル集合に拡張する。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - MeshXL: Neural Coordinate Field for Generative 3D Foundation Models [51.1972329762843]
本稿では,現代の大規模言語モデルを用いた3次元メッシュ生成のプロセスに対処する,事前学習型自己回帰モデルの生成ファミリを提案する。
MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。
論文 参考訳(メタデータ) (2024-05-31T14:35:35Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Learning to Generate 3D Shapes from a Single Example [28.707149807472685]
本稿では,入力形状の幾何学的特徴を空間的範囲にわたって捉えるために,マルチスケールのGANモデルを提案する。
我々は、外部の監督や手動のアノテーションを必要とせずに、基準形状のボクセルピラミッドで生成モデルを訓練する。
結果の形状は異なるスケールで変化を示し、同時に基準形状のグローバルな構造を保持する。
論文 参考訳(メタデータ) (2022-08-05T01:05:32Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。