論文の概要: Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens
- arxiv url: http://arxiv.org/abs/2503.16278v1
- Date: Thu, 20 Mar 2025 16:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.47597
- Title: Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens
- Title(参考訳): Uni-3DAR:圧縮空間トークンの自己回帰による統一3次元生成と理解
- Authors: Shuqi Lu, Haowei Lin, Lin Yao, Zhifeng Gao, Xiaohong Ji, Weinan E, Linfeng Zhang, Guolin Ke,
- Abstract要約: 自動回帰予測により3次元GUタスクをシームレスに統合する統合フレームワークUni-3DARを紹介する。
Uni-3DARの中核となるのは、オクツリーを用いて3次元空間を圧縮する新しい階層的トークン化である。
これらの戦略を組み合わせることで、Uni-3DARは単一の自動回帰フレームワーク内で多様な3D GUタスクを統一することに成功した。
- 参考スコア(独自算出の注目度): 20.711571319687057
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large language models and their multi-modal extensions have demonstrated the effectiveness of unifying generation and understanding through autoregressive next-token prediction. However, despite the critical role of 3D structural generation and understanding ({3D GU}) in AI for science, these tasks have largely evolved independently, with autoregressive methods remaining underexplored. To bridge this gap, we introduce Uni-3DAR, a unified framework that seamlessly integrates {3D GU} tasks via autoregressive prediction. At its core, Uni-3DAR employs a novel hierarchical tokenization that compresses 3D space using an octree, leveraging the inherent sparsity of 3D structures. It then applies an additional tokenization for fine-grained structural details, capturing key attributes such as atom types and precise spatial coordinates in microscopic 3D structures. We further propose two optimizations to enhance efficiency and effectiveness. The first is a two-level subtree compression strategy, which reduces the octree token sequence by up to 8x. The second is a masked next-token prediction mechanism tailored for dynamically varying token positions, significantly boosting model performance. By combining these strategies, Uni-3DAR successfully unifies diverse {3D GU} tasks within a single autoregressive framework. Extensive experiments across multiple microscopic {3D GU} tasks, including molecules, proteins, polymers, and crystals, validate its effectiveness and versatility. Notably, Uni-3DAR surpasses previous state-of-the-art diffusion models by a substantial margin, achieving up to 256\% relative improvement while delivering inference speeds up to 21.8x faster. The code is publicly available at https://github.com/dptech-corp/Uni-3DAR.
- Abstract(参考訳): 大規模言語モデルとそのマルチモーダル拡張の最近の進歩は、自己回帰的次トーケン予測による生成と理解の統一の有効性を実証している。
しかし、科学におけるAIにおける3D構造生成と理解({3D GU})の重要な役割にもかかわらず、これらのタスクは独立して進化し、自己回帰的手法は未探索のままである。
このギャップを埋めるために、自動回帰予測によって {3D GU} タスクをシームレスに統合する統合フレームワーク Uni-3DAR を導入する。
Uni-3DARのコアとなるのは、Octreeを使って3D空間を圧縮する新しい階層的トークン化である。
その後、微細な構造の詳細にさらなるトークン化を施し、微視的な3D構造における原子タイプや正確な空間座標などの重要な属性をキャプチャする。
さらに,効率と効率性を高めるために2つの最適化を提案する。
1つは2段階のサブツリー圧縮戦略であり、オクツリートークンシーケンスを最大8倍に削減する。
2つ目は、動的に変化するトークンの位置に合わせて調整されたマスク付き次世代予測機構で、モデル性能を大幅に向上させる。
これらの戦略を組み合わせることで、Uni-3DARは単一の自己回帰フレームワーク内で多様な {3D GU} タスクを統一することに成功した。
分子、タンパク質、ポリマー、結晶を含む、複数の顕微鏡的な {3D GU} タスクにわたる大規模な実験は、その有効性と汎用性を検証する。
特筆すべきは、Uni-3DARは従来の最先端拡散モデルをかなり上回り、推論速度を最大21.8倍速くし、256\%の相対的な改善を実現していることである。
コードはhttps://github.com/dptech-corp/Uni-3DARで公開されている。
関連論文リスト
- OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation [24.980804600194062]
OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。
従来の3D自動回帰手法の効率と性能を劇的に向上させる。
高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:31:26Z) - HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation [61.32714172038278]
そこで本稿では, 階層型自動回帰変換器 (HiPART) と呼ばれる新しい2段階の縮退法を提案し, 元のスパース2Dポーズから2次元の高密度ポーズを生成する。
具体的には,高密度な2次元ポーズを階層的なトークンに量子化するマルチスケールスケルトントークン化モジュールを開発し,トークン接続を強化するスケルトン対応アライメントを提案する。
2D-to-3Dリフトの入力として生成された階層的ポーズにより,提案手法は隠蔽シナリオの強い堅牢性を示し,単一フレームベース3Dにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-30T06:15:36Z) - DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning [21.77406648840365]
DeepMeshは、2つの重要なイノベーションを通じてメッシュ生成を最適化するフレームワークである。
データキュレーションと処理の改善とともに、新しいトークン化アルゴリズムが組み込まれている。
複雑な詳細と正確なトポロジを持つメッシュを生成し、精度と品質の両方で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-03-19T14:39:30Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。