論文の概要: LoST: Level of Semantics Tokenization for 3D Shapes
- arxiv url: http://arxiv.org/abs/2603.17995v1
- Date: Wed, 18 Mar 2026 17:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.871509
- Title: LoST: Level of Semantics Tokenization for 3D Shapes
- Title(参考訳): LoST:3次元形状に対する意味的トークン化のレベル
- Authors: Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen,
- Abstract要約: State-of-the-artメソッドは、もともとレンダリングと圧縮のために設計された幾何学的なレベル・オブ・ディテール(LoD)階層に依存している。
本稿では,初期接頭辞が完全かつ可塑性な形状をデコードするように,サリエンスを指示するレベル・オブ・セマンティックス・トークン化(LoST)を提案する。
LoSTはSOTA再構成を実現し、幾何的および意味的再構成のメトリクスにおいて、従来のLoDベースの3次元形状トークン化器を大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 50.847769883816085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is a fundamental technique in the generative modeling of various modalities. In particular, it plays a critical role in autoregressive (AR) models, which have recently emerged as a compelling option for 3D generation. However, optimal tokenization of 3D shapes remains an open question. State-of-the-art (SOTA) methods primarily rely on geometric level-of-detail (LoD) hierarchies, originally designed for rendering and compression. These spatial hierarchies are often token-inefficient and lack semantic coherence for AR modeling. We propose Level-of-Semantics Tokenization (LoST), which orders tokens by semantic salience, such that early prefixes decode into complete, plausible shapes that possess principal semantics, while subsequent tokens refine instance-specific geometric and semantic details. To train LoST, we introduce Relational Inter-Distance Alignment (RIDA), a novel 3D semantic alignment loss that aligns the relational structure of the 3D shape latent space with that of the semantic DINO feature space. Experiments show that LoST achieves SOTA reconstruction, surpassing previous LoD-based 3D shape tokenizers by large margins on both geometric and semantic reconstruction metrics. Moreover, LoST achieves efficient, high-quality AR 3D generation and enables downstream tasks like semantic retrieval, while using only 0.1%-10% of the tokens needed by prior AR models.
- Abstract(参考訳): トークン化は様々なモダリティの生成モデリングにおける基本的な技術である。
特に、3D生成の魅力的な選択肢として最近登場した自動回帰(AR)モデルにおいて重要な役割を担っている。
しかし、3次元形状の最適トークン化は未解決の問題である。
State-of-the-art (SOTA) の手法は主に幾何学的なレベル・オブ・ディーテール(LoD)階層に依存しており、元々はレンダリングと圧縮のために設計された。
これらの空間階層はしばしばトークン非効率であり、ARモデリングのセマンティックコヒーレンスを欠いている。
本稿では,初期接頭辞が主意味論を持つ完全かつ可算な形にデコードされるような意味的サリエンスによってトークンを順序付けするレベル・オブ・セマンティックス・トークン化(LoST)を提案し,その後のトークンはインスタンス固有の幾何学的・意味的詳細を洗練させる。
LoSTのトレーニングには,3次元形状ラテント空間のリレーショナル構造とDINO特徴空間のリレーショナル構造を整合させる新しい3次元セマンティックアライメントロスであるRelational Inter-Distance Alignment (RIDA)を導入する。
実験により,LoSTがSOTA再構成を実現し,幾何学的,意味的両方の指標において,従来のLoDベースの3次元形状トークン化器をはるかに上回っていることが示された。
さらに、LoSTは効率的で高品質なAR 3D生成を実現し、セマンティック検索のような下流タスクを可能にします。
関連論文リスト
- GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - Features Emerge as Discrete States: The First Application of SAEs to 3D Representations [5.751184796461698]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを分解する強力な辞書学習技術である。
53k3Dモデルに適用した最先端3D再構成VAEの特徴を解析し,SAEの3D領域への最初の応用について述べる。
論文 参考訳(メタデータ) (2025-12-12T03:54:45Z) - LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文 参考訳(メタデータ) (2025-10-09T06:30:20Z) - Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文 参考訳(メタデータ) (2025-09-22T07:23:07Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。