論文の概要: Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization
- arxiv url: http://arxiv.org/abs/2504.02817v1
- Date: Thu, 03 Apr 2025 17:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 15:24:09.733498
- Title: Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization
- Title(参考訳): オクタリーベース適応トークン化による効率的な自己回帰形状生成
- Authors: Kangle Deng, Hsueh-Ti Derek Liu, Yiheng Zhu, Xiaoxia Sun, Chong Shang, Kiran Bhat, Deva Ramanan, Jun-Yan Zhu, Maneesh Agrawala, Tinghui Zhou,
- Abstract要約: 既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。
当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
- 参考スコア(独自算出の注目度): 68.07464514094299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many 3D generative models rely on variational autoencoders (VAEs) to learn compact shape representations. However, existing methods encode all shapes into a fixed-size token, disregarding the inherent variations in scale and complexity across 3D data. This leads to inefficient latent representations that can compromise downstream generation. We address this challenge by introducing Octree-based Adaptive Tokenization, a novel framework that adjusts the dimension of latent representations according to shape complexity. Our approach constructs an adaptive octree structure guided by a quadric-error-based subdivision criterion and allocates a shape latent vector to each octree cell using a query-based transformer. Building upon this tokenization, we develop an octree-based autoregressive generative model that effectively leverages these variable-sized representations in shape generation. Extensive experiments demonstrate that our approach reduces token counts by 50% compared to fixed-size methods while maintaining comparable visual quality. When using a similar token length, our method produces significantly higher-quality shapes. When incorporated with our downstream generative model, our method creates more detailed and diverse 3D content than existing approaches.
- Abstract(参考訳): 多くの3D生成モデルは、コンパクトな形状表現を学ぶために変分オートエンコーダ(VAE)に依存している。
しかし、既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
これにより、下流生成を妥協する非効率な潜在表現が生まれる。
我々は, 形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctreeベースの適応トークン化を導入することで, この課題に対処する。
提案手法は,2次誤差に基づく分割基準で導かれる適応オクツリー構造を構築し,クエリベースの変換器を用いて,各オクツリーセルに形状潜在ベクトルを割り当てる。
このトークン化に基づいて,これらの可変サイズの表現を効果的に活用するオクツリーに基づく自己回帰生成モデルを開発した。
広汎な実験により、我々の手法は、同等の視覚的品質を維持しながら、固定サイズの方法に比べてトークン数を50%削減することを示した。
類似のトークン長を用いる場合, より高品質な形状が得られる。
下流生成モデルに組み込むと,既存の手法よりも詳細な3Dコンテンツが作成できる。
関連論文リスト
- OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation [24.980804600194062]
OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。
従来の3D自動回帰手法の効率と性能を劇的に向上させる。
高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:31:26Z) - A Mesh Is Worth 512 Numbers: Spectral-domain Diffusion Modeling for High-dimension Shape Generation [4.064004858393506]
本稿では,高品質な形状生成のためのスペクトル領域拡散フレームワークSpotDifyを提案する。
15k頂点メッシュを学習せずに512次元の潜在コードに符号化するなど、複雑なメッシュを連続的な暗黙の表現に効率的にエンコードする。
論文 参考訳(メタデータ) (2025-03-09T07:05:29Z) - DetailGen3D: Generative 3D Geometry Enhancement via Data-Dependent Flow [44.72037991063735]
DetailGen3Dは、生成された3D形状を強化するために特別に設計されたジェネレーティブなアプローチである。
我々の重要な洞察は、潜在空間におけるデータ依存フローを通して、粗大から細小への変換を直接モデル化することである。
改質時に正確な空間対応を確保するためのトークンマッチング戦略を導入する。
論文 参考訳(メタデータ) (2024-11-25T17:08:17Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Dual Octree Graph Networks for Learning Adaptive Volumetric Shape
Representations [21.59311861556396]
本手法は,3次元形状の体積場を,オクツリーによって構成された適応的特徴量で符号化する。
エンコーダ・デコーダネットワークは、オクツリーノードの二重グラフ上のグラフ畳み込みに基づいて、適応的な特徴量を学ぶように設計されている。
提案手法は, 形状詳細を効果的に符号化し, 高速な3次元形状復元を可能にし, 訓練カテゴリから3次元形状をモデル化するための優れた汎用性を示す。
論文 参考訳(メタデータ) (2022-05-05T17:56:34Z) - Autoregressive 3D Shape Generation via Canonical Mapping [92.91282602339398]
トランスフォーマーは、画像、音声、テキスト生成など、様々な生成タスクで顕著なパフォーマンスを示している。
本稿では,変圧器のパワーをさらに活用し,それを3Dポイントクラウド生成のタスクに活用することを目的とする。
条件付き形状生成への応用として,本モデルを簡単にマルチモーダル形状完成に拡張することができる。
論文 参考訳(メタデータ) (2022-04-05T03:12:29Z) - Octree Transformer: Autoregressive 3D Shape Generation on Hierarchically
Structured Sequences [11.09257948735229]
自己回帰モデルは、NLPテキスト生成タスクにおいて非常に強力であることが証明されている。
本稿では,シーケンス長を大幅に削減する適応圧縮方式を提案する。
形状生成における最先端技術との比較により,本モデルの性能を実証する。
論文 参考訳(メタデータ) (2021-11-24T13:17:16Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。