論文の概要: Unified Cross-Scale 3D Generation and Understanding via Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2503.16278v3
- Date: Thu, 09 Oct 2025 02:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.412165
- Title: Unified Cross-Scale 3D Generation and Understanding via Autoregressive Modeling
- Title(参考訳): 自己回帰モデリングによる一元的クロススケール3次元生成と理解
- Authors: Shuqi Lu, Haowei Lin, Lin Yao, Zhifeng Gao, Xiaohong Ji, Yitao Liang, Weinan E, Linfeng Zhang, Guolin Ke,
- Abstract要約: クロススケールな3D生成と理解のための統合自己回帰フレームワークUni-3DARを提案する。
コアとなるのはオクツリーデータ構造に基づく粗大なトークンライザで、多様な3D構造をコンパクトな1Dトークンシーケンスに圧縮する。
圧縮によって引き起こされる動的に異なるトークン位置の課題に対処するために,マスク付き次世代予測戦略を導入する。
- 参考スコア(独自算出の注目度): 32.45851798752336
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: 3D structure modeling is essential across scales, enabling applications from fluid simulation and 3D reconstruction to protein folding and molecular docking. Yet, despite shared 3D spatial patterns, current approaches remain fragmented, with models narrowly specialized for specific domains and unable to generalize across tasks or scales. We propose Uni-3DAR, a unified autoregressive framework for cross-scale 3D generation and understanding. At its core is a coarse-to-fine tokenizer based on octree data structures, which compresses diverse 3D structures into compact 1D token sequences. We further propose a two-level subtree compression strategy, which reduces the octree token sequence by up to 8x. To address the challenge of dynamically varying token positions introduced by compression, we introduce a masked next-token prediction strategy that ensures accurate positional modeling, significantly boosting model performance. Extensive experiments across multiple 3D generation and understanding tasks, including small molecules, proteins, polymers, crystals, and macroscopic 3D objects, validate its effectiveness and versatility. Notably, Uni-3DAR surpasses previous state-of-the-art diffusion models by a substantial margin, achieving up to 256\% relative improvement while delivering inference speeds up to 21.8x faster.
- Abstract(参考訳): 3次元構造モデリングは、流体シミュレーションや3次元再構成からタンパク質の折り畳み、分子ドッキングまで、様々なスケールで必要不可欠である。
しかし、共有された3次元空間パターンにもかかわらず、現在のアプローチは断片的であり、特定のドメインに限定したモデルであり、タスクやスケールをまたいだ一般化ができない。
クロススケールな3D生成と理解のための統合自己回帰フレームワークUni-3DARを提案する。
コアとなるのはオクツリーデータ構造に基づく粗大なトークンライザで、多様な3D構造をコンパクトな1Dトークンシーケンスに圧縮する。
さらに,Octreeトークン列を最大8倍に削減する2段階のサブツリー圧縮戦略を提案する。
圧縮によって導入されたトークン位置を動的に変化させることの課題に対処するために,正確な位置モデリングを保証し,モデル性能を大幅に向上させるマスク付き次世代予測戦略を導入する。
小さな分子、タンパク質、ポリマー、結晶、およびマクロな3Dオブジェクトを含む、複数の3D生成および理解タスクにわたる大規模な実験は、その有効性と汎用性を検証する。
特筆すべきは、Uni-3DARは従来の最先端拡散モデルをかなり上回り、推論速度を最大21.8倍速くし、256\%の相対的な改善を実現していることである。
関連論文リスト
- ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding [16.95099884066268]
ShapeLLM-Omniは、任意のシーケンスで3Dのアセットとテキストを理解し、生成できる3Dの大規模言語モデルである。
3D対応離散トークンに基づいて、3D-Alpacaという大規模連続トレーニングデータセットを革新的に構築する。
我々の研究は、基本的な3D機能を備えたマルチモーダルモデルを効果的に拡張する試みであり、将来の3DネイティブAIの研究に寄与する。
論文 参考訳(メタデータ) (2025-06-02T16:40:50Z) - AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning [27.40106634796608]
大規模マルチモーダルモデル(LMM)は、ディープラーニングにおいて重要な研究対象となっている。
現在、3D LMMは何千もの空間トークンを多モーダル推論に用いており、重要な非効率性に悩まされている。
冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
論文 参考訳(メタデータ) (2025-05-19T07:11:07Z) - OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation [24.980804600194062]
OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。
従来の3D自動回帰手法の効率と性能を劇的に向上させる。
高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:31:26Z) - HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation [61.32714172038278]
そこで本稿では, 階層型自動回帰変換器 (HiPART) と呼ばれる新しい2段階の縮退法を提案し, 元のスパース2Dポーズから2次元の高密度ポーズを生成する。
具体的には,高密度な2次元ポーズを階層的なトークンに量子化するマルチスケールスケルトントークン化モジュールを開発し,トークン接続を強化するスケルトン対応アライメントを提案する。
2D-to-3Dリフトの入力として生成された階層的ポーズにより,提案手法は隠蔽シナリオの強い堅牢性を示し,単一フレームベース3Dにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-30T06:15:36Z) - DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning [21.77406648840365]
DeepMeshは、2つの重要なイノベーションを通じてメッシュ生成を最適化するフレームワークである。
データキュレーションと処理の改善とともに、新しいトークン化アルゴリズムが組み込まれている。
複雑な詳細と正確なトポロジを持つメッシュを生成し、精度と品質の両方で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-03-19T14:39:30Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。