Fugu-MT 論文翻訳(概要): Make-A-Shape: a Ten-Million-scale 3D Shape Model

論文の概要: Make-A-Shape: a Ten-Million-scale 3D Shape Model

arxiv url: http://arxiv.org/abs/2401.11067v1
Date: Sat, 20 Jan 2024 00:21:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 18:04:58.547707
Title: Make-A-Shape: a Ten-Million-scale 3D Shape Model
Title（参考訳）: Make-A-Shape:10ミリスケール3次元形状モデル
Authors: Ka-Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi-Wing Fu
Abstract要約: 本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
参考スコア（独自算出の注目度）: 55.34451258972251
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Significant progress has been made in training large generative models for natural language and images. Yet, the advancement of 3D generative models is hindered by their substantial resource demands for training, along with inefficient, non-compact, and less expressive representations. This paper introduces Make-A-Shape, a new 3D generative model designed for efficient training on a vast scale, capable of utilizing 10 millions publicly-available shapes. Technical-wise, we first innovate a wavelet-tree representation to compactly encode shapes by formulating the subband coefficient filtering scheme to efficiently exploit coefficient relations. We then make the representation generatable by a diffusion model by devising the subband coefficients packing scheme to layout the representation in a low-resolution grid. Further, we derive the subband adaptive training strategy to train our model to effectively learn to generate coarse and detail wavelet coefficients. Last, we extend our framework to be controlled by additional input conditions to enable it to generate shapes from assorted modalities, e.g., single/multi-view images, point clouds, and low-resolution voxels. In our extensive set of experiments, we demonstrate various applications, such as unconditional generation, shape completion, and conditional generation on a wide range of modalities. Our approach not only surpasses the state of the art in delivering high-quality results but also efficiently generates shapes within a few seconds, often achieving this in just 2 seconds for most conditions.
Abstract（参考訳）: 自然言語と画像の大規模な生成モデルの訓練において重要な進展が見られた。しかし、3次元生成モデルの進歩は、非効率で非コンパクトで表現力に乏しい表現とともに、トレーニングに対するリソースの実質的な要求によって妨げられている。そこで本稿では,1000万の形状を活用可能な大規模学習のための新しい3次元生成モデルであるmake-a-shapeを提案する。技術的には、まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化し、係数関係を効率的に活用する。次に,低分解能グリッドで表現をレイアウトするサブバンド係数パッキング方式を考案し,拡散モデルにより表現を生成可能とする。さらに,モデル学習のためのサブバンド適応学習戦略を導出し,粗いウェーブレット係数の生成を効果的に行う。最後に、当社のフレームワークを追加の入力条件で制御できるように拡張することで、シングル/マルチビューイメージ、ポイントクラウド、低解像度ボクセルなど、さまざまなモダリティから形状を生成することができます。広範に実験を行った結果,無条件生成,形状完備化,多岐にわたる条件生成など,様々な応用が示された。私たちのアプローチは、高品質な結果を提供する上での最先端技術を超えるだけでなく、数秒で効率的に形状を生成します。

関連論文リスト

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。 UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文参考訳（メタデータ） (2025-06-11T17:23:21Z)
A Mesh Is Worth 512 Numbers: Spectral-domain Diffusion Modeling for High-dimension Shape Generation [4.064004858393506]
本稿では,高品質な形状生成のためのスペクトル領域拡散フレームワークSpotDifyを提案する。 15k頂点メッシュを学習せずに512次元の潜在コードに符号化するなど、複雑なメッシュを連続的な暗黙の表現に効率的にエンコードする。
論文参考訳（メタデータ） (2025-03-09T07:05:29Z)
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings [15.2983201224858]
大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。我々はウェーブレット遅延拡散(WaLa)と呼ばれる新しい手法を導入し、3次元形状をコンパクトな潜時符号化に符号化する。具体的には、2563ドルの符号付き距離場を123倍の遅延格子に圧縮し、2427倍の圧縮比を達成した。我々のモデルは条件付きと無条件の両方で、約10億のパラメータを含み、高品質な3D形状を2563$で生成することに成功した。
論文参考訳（メタデータ） (2024-11-12T18:49:06Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文参考訳（メタデータ） (2023-09-15T16:34:51Z)
Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文参考訳（メタデータ） (2023-06-20T13:01:19Z)
Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文参考訳（メタデータ） (2023-03-26T12:03:18Z)
SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文参考訳（メタデータ） (2022-12-08T18:59:05Z)
3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文参考訳（メタデータ） (2022-11-30T01:55:52Z)
Discrete Point Flow Networks for Efficient Point Cloud Generation [36.03093265136374]
生成モデルは3次元形状とその統計的バリエーションをモデル化するのに有効であることが証明されている。任意の大きさの3次元点雲を生成するために,フローの正規化に基づく潜在変数モデルを導入する。単一ビュー形状再構成では、最先端のボクセル、ポイントクラウド、メッシュベースの手法と同等の結果が得られる。
論文参考訳（メタデータ） (2020-07-20T14:48:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。