Fugu-MT 論文翻訳(概要): 3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation

論文の概要: 3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation

arxiv url: http://arxiv.org/abs/2412.02202v1
Date: Tue, 03 Dec 2024 06:31:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.900495
Title: 3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation
Title（参考訳）: 512バイトにおける3D表現:可変トークン化器は自己回帰型3D生成の鍵である
Authors: Jinzhi Zhang, Feng Xiong, Mu Xu,
Abstract要約: 変分トークン化器(VAT)は、無秩序な3Dデータを暗黙の階層を持つコンパクトな潜在トークンに変換する。 VATはスケーラブルで効率的な3D生成を可能にする。
参考スコア（独自算出の注目度）: 4.221298212125194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive transformers have revolutionized high-fidelity image generation. One crucial ingredient lies in the tokenizer, which compresses high-resolution image patches into manageable discrete tokens with a scanning or hierarchical order suitable for large language models. Extending these tokenizers to 3D generation, however, presents a significant challenge: unlike image patches that naturally exhibit spatial sequence and multi-scale relationships, 3D data lacks an inherent order, making it difficult to compress into fewer tokens while preserving structural details. To address this, we introduce the Variational Tokenizer (VAT), which transforms unordered 3D data into compact latent tokens with an implicit hierarchy, suited for efficient and high-fidelity coarse-to-fine autoregressive modeling. VAT begins with an in-context transformer, which compress numerous unordered 3D features into a reduced token set with minimal information loss. This latent space is then mapped to a Gaussian distribution for residual quantization, with token counts progressively increasing across scales. In this way, tokens at different scales naturally establish the interconnections by allocating themselves into different subspaces within the same Gaussian distribution, facilitating discrete modeling of token relationships across scales. During the decoding phase, a high-resolution triplane is utilized to convert these compact latent tokens into detailed 3D shapes. Extensive experiments demonstrate that VAT enables scalable and efficient 3D generation, outperforming existing methods in quality, efficiency, and generalization. Remarkably, VAT achieves up to a 250x compression, reducing a 1MB mesh to just 3.9KB with a 96% F-score, and can further compress to 256 int8 tokens, achieving a 2000x reduction while maintaining a 92% F-score.
Abstract（参考訳）: 自己回帰変換器は高忠実度画像生成に革命をもたらした。 1つの重要な要素は、大きな言語モデルに適した走査的または階層的な順序で、高解像度のイメージパッチを管理可能な離散トークンに圧縮するトークン化器である。自然に空間配列やマルチスケールの関係を示すイメージパッチとは異なり、3Dデータは固有の順序に欠けており、構造的詳細を保存しながら少ないトークンに圧縮することが困難である。そこで本研究では,非秩序な3次元データを暗黙の階層を持つコンパクトな潜在トークンに変換する変分トークン(VAT)を導入し,高精度で高精度な自己回帰モデルを提案する。 VATは、多くの非順序の3D特徴を最小限の情報損失の少ないトークンセットに圧縮するインコンテキスト変換器から始まる。この潜在空間は、残留量子化のためにガウス分布に写像され、トークン数はスケールにわたって徐々に増加する。このように、異なるスケールのトークンは、同じガウス分布内の異なる部分空間にアロケートすることで自然に相互接続を確立し、スケールをまたいだトークン関係の離散モデリングを容易にする。復号段階では、これらのコンパクトな潜伏トークンを詳細な3次元形状に変換するために高分解能三葉機が使用される。大規模な実験により、VATはスケーラブルで効率的な3D生成を可能にし、品質、効率、一般化において既存の手法より優れていることが示されている。 VATは最大250倍の圧縮を実現し、1MBのメッシュを96%のFスコアで3.9KBに減らし、さらに256 int8トークンに圧縮でき、92%のFスコアを維持しながら2000倍の削減を実現している。

関連論文リスト

Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation [27.795313102716726]
画像のコンパクトな離散表現のための1次元バイナリ画像ラテントを提案する。提案手法は, 1次元ラテントのコンパクト性を維持しながら, 高分解能の細部を保存できる。我々のテキスト・ツー・イメージモデルは、拡散と自己回帰の両方で競合する性能を達成した最初のモデルです。
論文参考訳（メタデータ） (2025-06-26T05:48:36Z)
Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling [34.238349310770886]
Sarc3Dはスパース変形可能なマーチングキューブ表現と新しいエンコーダSparconv-VAEを組み合わせた統一フレームワークである。 Sparc3Dは、オープンサーフェス、切断されたコンポーネント、複雑な幾何学を含む挑戦的な入力に対して、最先端の再構築忠実性を達成する。
論文参考訳（メタデータ） (2025-05-20T15:44:54Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation [24.980804600194062]
OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。従来の3D自動回帰手法の効率と性能を劇的に向上させる。高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
論文参考訳（メタデータ） (2025-04-14T08:31:26Z)
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [62.77721499671665]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-11T17:59:58Z)
Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文参考訳（メタデータ） (2025-04-03T17:57:52Z)
MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation [44.94438766074643]
ピラミッド変分オートエンコーダとカスケードマスク自動回帰変換器を統合したMAR-3Dを提案する。我々のアーキテクチャは、トレーニング中にランダムマスキングを採用し、推論中にランダムな順序で自動回帰化を行い、自然に3D潜在トークンの無秩序な性質を調節する。
論文参考訳（メタデータ） (2025-03-26T13:00:51Z)
Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models [21.97308739556984]
COD-VAEは、品質を犠牲にすることなく、3D形状を1D潜伏ベクトルからなるCampact集合に符号化する。 COD-VAEは品質を維持しながらベースラインに比べて16倍の圧縮を実現している。これにより、生成の20.8倍のスピードアップが可能となり、大量の潜在ベクトルが高品質な再構成と生成の前提条件ではないことが強調された。
論文参考訳（メタデータ） (2025-03-11T06:29:39Z)
Attamba: Attending To Multi-Token States [6.5676809841642125]
Attambaは、状態空間モデルを用いてトークンの塊を圧縮する新しいアーキテクチャである。変換器のキーと値のプロジェクションをSSMに置き換えることで、モデルの品質が向上し、フレキシブルなトークンチャンキングが可能になる。アタンバは可変長のチャンク列に注意を向けることができ、二次スケーリングと線形スケーリングのスムーズな遷移を可能にする。
論文参考訳（メタデータ） (2024-11-26T18:52:06Z)
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer [33.97880303341509]
本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。 HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
論文参考訳（メタデータ） (2024-10-14T17:59:42Z)
EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation [36.69567056569989]
本稿では,最大4,000面の高品質な3Dメッシュを5123ドルの空間解像度で生成できる自動回帰オートエンコーダ(ArAE)モデルを提案する。本稿では, 3次元メッシュを1次元トークンシーケンスに効率よく圧縮し, トレーニング効率を大幅に向上させる新しいメッシュトークン化アルゴリズムを提案する。我々のモデルは、可変長の三角形メッシュを固定長の潜在空間に圧縮し、より優れた一般化のための潜在拡散モデルの訓練を可能にする。
論文参考訳（メタデータ） (2024-09-26T17:55:02Z)
An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。 TiTokは最先端のアプローチと競合するパフォーマンスを実現している。我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文参考訳（メタデータ） (2024-06-11T17:59:56Z)
CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文参考訳（メタデータ） (2024-04-15T04:50:39Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS [55.85673901231235]
光ガウシアン(LightGaussian)は、3次元ガウシアンをよりコンパクトなフォーマットに変換する方法である。ネットワーク・プルーニングにインスパイアされたLightGaussianは、ガウシアンをシーン再構築において最小限のグローバルな重要性で特定した。 LightGaussian は 3D-GS フレームワークで FPS を 144 から 237 に上げながら,平均 15 倍の圧縮率を達成する。
論文参考訳（メタデータ） (2023-11-28T21:39:20Z)
Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文参考訳（メタデータ） (2023-05-11T16:42:24Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文参考訳（メタデータ） (2021-05-13T17:56:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。