論文の概要: Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.08737v1
- Date: Tue, 11 Mar 2025 06:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:16.278203
- Title: Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models
- Title(参考訳): 3次元拡散モデルのための64遅延ベクトルによる3次元形状の表現
- Authors: In Cho, Youngbeom Yoo, Subin Jeon, Seon Joo Kim,
- Abstract要約: COD-VAEは、品質を犠牲にすることなく、3D形状を1D潜伏ベクトルからなるCampact集合に符号化する。
COD-VAEは品質を維持しながらベースラインに比べて16倍の圧縮を実現している。
これにより、生成の20.8倍のスピードアップが可能となり、大量の潜在ベクトルが高品質な再構成と生成の前提条件ではないことが強調された。
- 参考スコア(独自算出の注目度): 21.97308739556984
- License:
- Abstract: Constructing a compressed latent space through a variational autoencoder (VAE) is the key for efficient 3D diffusion models. This paper introduces COD-VAE, a VAE that encodes 3D shapes into a COmpact set of 1D latent vectors without sacrificing quality. COD-VAE introduces a two-stage autoencoder scheme to improve compression and decoding efficiency. First, our encoder block progressively compresses point clouds into compact latent vectors via intermediate point patches. Second, our triplane-based decoder reconstructs dense triplanes from latent vectors instead of directly decoding neural fields, significantly reducing computational overhead of neural fields decoding. Finally, we propose uncertainty-guided token pruning, which allocates resources adaptively by skipping computations in simpler regions and improves the decoder efficiency. Experimental results demonstrate that COD-VAE achieves 16x compression compared to the baseline while maintaining quality. This enables 20.8x speedup in generation, highlighting that a large number of latent vectors is not a prerequisite for high-quality reconstruction and generation.
- Abstract(参考訳): 可変オートエンコーダ(VAE)によって圧縮された潜在空間を構成することは、効率的な3次元拡散モデルのための鍵である。
本稿では, 品質を犠牲にすることなく, 3次元形状を1次元潜在ベクトルのコペンタクト集合に符号化するVAEであるCOD-VAEを紹介する。
COD-VAEは圧縮と復号効率を改善するために2段階のオートエンコーダ方式を導入した。
まず、エンコーダブロックは、中間点パッチを介して、点雲をコンパクトな潜在ベクトルに漸進的に圧縮する。
第2に, ニューラルネットワークを直接デコードするのではなく, 遅延ベクトルから高密度な三面体を再構成し, 計算オーバーヘッドを大幅に低減する。
最後に、より単純な領域で計算をスキップすることでリソースを適応的に割り当て、デコーダ効率を向上させる不確実性誘導型トークンプルーニングを提案する。
実験の結果,COD-VAEは品質を維持しつつ,ベースラインに比べて16倍の圧縮を実現することがわかった。
これにより、生成の20.8倍のスピードアップが可能となり、大量の潜在ベクトルが高品質な再構成と生成の前提条件ではないことが強調された。
関連論文リスト
- 3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation [4.221298212125194]
変分トークン化器(VAT)は、無秩序な3Dデータを暗黙の階層を持つコンパクトな潜在トークンに変換する。
VATはスケーラブルで効率的な3D生成を可能にする。
論文 参考訳(メタデータ) (2024-12-03T06:31:25Z) - Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models [38.84567900296605]
ディープ圧縮オートエンコーダ (DC-AE) は高分解能拡散モデルの高速化を目的とした新しいオートエンコーダモデルである。
遅延拡散モデルへの直流-AEの適用により,精度低下のない大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-10-14T17:15:07Z) - ContextGS: Compact 3D Gaussian Splatting with Anchor Level Context Model [77.71796503321632]
我々は3DGS表現のアンカーレベルにコンテキストモデルを導入し,バニラ3DGSと比較して100倍以上のサイズの縮小を実現した。
我々の研究は3DGS表現のためのアンカーレベルのコンテキストモデルを開拓し、バニラ3DGSに比べて100倍以上、そして最新の最先端のScaffold-GSに比べて15倍の大幅なサイズ縮小を実現した。
論文 参考訳(メタデータ) (2024-05-31T09:23:39Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Fast 2D Bicephalous Convolutional Autoencoder for Compressing 3D Time
Projection Chamber Data [11.186303973102532]
この研究はBCAE++とBCAE-2Dの2つの変種を紹介している。
BCAE++は圧縮比が15%向上し、BCAEと比較して平均絶対誤差で測定された再現精度が77%向上した。
さらに,デコーダを大きくしたアンバランスなオートエンコーダを,スループットを著しく損なうことなく再現精度を向上できることを示した。
論文 参考訳(メタデータ) (2023-10-23T15:23:32Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Implicit Autoencoder for Point-Cloud Self-Supervised Representation
Learning [39.521374237630766]
最もポピュラーでアクセスしやすい3D表現、すなわち点雲は、下層の連続した3D表面の離散的なサンプルを含む。
この離散化プロセスは3次元形状のサンプリングのバリエーションを導入し、真の3次元幾何学の伝達可能な知識を開発するのが困難になる。
標準的なオートエンコーディングパラダイムでは、エンコーダは3D形状だけでなく、3D形状の特定の離散サンプリングに関する情報を潜在コードにエンコードする。
これは、デコーダによって再構成された点雲が、原点と再構成された点との完全なマッピングがない限り、受け入れられないためである。
論文 参考訳(メタデータ) (2022-01-03T18:05:52Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。
本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。
我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文 参考訳(メタデータ) (2020-05-14T17:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。