論文の概要: 3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation
- arxiv url: http://arxiv.org/abs/2412.02202v1
- Date: Tue, 03 Dec 2024 06:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:35.385658
- Title: 3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation
- Title(参考訳): 512バイトにおける3D表現:可変トークン化器は自己回帰型3D生成の鍵である
- Authors: Jinzhi Zhang, Feng Xiong, Mu Xu,
- Abstract要約: 変分トークン化器(VAT)は、無秩序な3Dデータを暗黙の階層を持つコンパクトな潜在トークンに変換する。
VATはスケーラブルで効率的な3D生成を可能にする。
- 参考スコア(独自算出の注目度): 4.221298212125194
- License:
- Abstract: Autoregressive transformers have revolutionized high-fidelity image generation. One crucial ingredient lies in the tokenizer, which compresses high-resolution image patches into manageable discrete tokens with a scanning or hierarchical order suitable for large language models. Extending these tokenizers to 3D generation, however, presents a significant challenge: unlike image patches that naturally exhibit spatial sequence and multi-scale relationships, 3D data lacks an inherent order, making it difficult to compress into fewer tokens while preserving structural details. To address this, we introduce the Variational Tokenizer (VAT), which transforms unordered 3D data into compact latent tokens with an implicit hierarchy, suited for efficient and high-fidelity coarse-to-fine autoregressive modeling. VAT begins with an in-context transformer, which compress numerous unordered 3D features into a reduced token set with minimal information loss. This latent space is then mapped to a Gaussian distribution for residual quantization, with token counts progressively increasing across scales. In this way, tokens at different scales naturally establish the interconnections by allocating themselves into different subspaces within the same Gaussian distribution, facilitating discrete modeling of token relationships across scales. During the decoding phase, a high-resolution triplane is utilized to convert these compact latent tokens into detailed 3D shapes. Extensive experiments demonstrate that VAT enables scalable and efficient 3D generation, outperforming existing methods in quality, efficiency, and generalization. Remarkably, VAT achieves up to a 250x compression, reducing a 1MB mesh to just 3.9KB with a 96% F-score, and can further compress to 256 int8 tokens, achieving a 2000x reduction while maintaining a 92% F-score.
- Abstract(参考訳): 自己回帰変換器は高忠実度画像生成に革命をもたらした。
1つの重要な要素は、大きな言語モデルに適した走査的または階層的な順序で、高解像度のイメージパッチを管理可能な離散トークンに圧縮するトークン化器である。
自然に空間配列やマルチスケールの関係を示すイメージパッチとは異なり、3Dデータは固有の順序に欠けており、構造的詳細を保存しながら少ないトークンに圧縮することが困難である。
そこで本研究では,非秩序な3次元データを暗黙の階層を持つコンパクトな潜在トークンに変換する変分トークン(VAT)を導入し,高精度で高精度な自己回帰モデルを提案する。
VATは、多くの非順序の3D特徴を最小限の情報損失の少ないトークンセットに圧縮するインコンテキスト変換器から始まる。
この潜在空間は、残留量子化のためにガウス分布に写像され、トークン数はスケールにわたって徐々に増加する。
このように、異なるスケールのトークンは、同じガウス分布内の異なる部分空間にアロケートすることで自然に相互接続を確立し、スケールをまたいだトークン関係の離散モデリングを容易にする。
復号段階では、これらのコンパクトな潜伏トークンを詳細な3次元形状に変換するために高分解能三葉機が使用される。
大規模な実験により、VATはスケーラブルで効率的な3D生成を可能にし、品質、効率、一般化において既存の手法より優れていることが示されている。
VATは最大250倍の圧縮を実現し、1MBのメッシュを96%のFスコアで3.9KBに減らし、さらに256 int8トークンに圧縮でき、92%のFスコアを維持しながら2000倍の削減を実現している。
関連論文リスト
- Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮率の異なる動的DiT推論フレームワークであるDiffRatio-MoDを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Attamba: Attending To Multi-Token States [6.5676809841642125]
Attambaは、状態空間モデルを用いてトークンの塊を圧縮する新しいアーキテクチャである。
変換器のキーと値のプロジェクションをSSMに置き換えることで、モデルの品質が向上し、フレキシブルなトークンチャンキングが可能になる。
アタンバは可変長のチャンク列に注意を向けることができ、二次スケーリングと線形スケーリングのスムーズな遷移を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:52:06Z) - HART: Efficient Visual Generation with Hybrid Autoregressive Transformer [33.97880303341509]
本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。
提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。
HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:42Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS [55.85673901231235]
光ガウシアン(LightGaussian)は、3次元ガウシアンをよりコンパクトなフォーマットに変換する方法である。
ネットワーク・プルーニングにインスパイアされたLightGaussianは、ガウシアンをシーン再構築において最小限のグローバルな重要性で特定した。
LightGaussian は 3D-GS フレームワークで FPS を 144 から 237 に上げながら,平均 15 倍の圧縮率を達成する。
論文 参考訳(メタデータ) (2023-11-28T21:39:20Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。