論文の概要: Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens
- arxiv url: http://arxiv.org/abs/2503.16278v1
- Date: Thu, 20 Mar 2025 16:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.47597
- Title: Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens
- Title(参考訳): Uni-3DAR:圧縮空間トークンの自己回帰による統一3次元生成と理解
- Authors: Shuqi Lu, Haowei Lin, Lin Yao, Zhifeng Gao, Xiaohong Ji, Weinan E, Linfeng Zhang, Guolin Ke,
- Abstract要約: 自動回帰予測により3次元GUタスクをシームレスに統合する統合フレームワークUni-3DARを紹介する。
Uni-3DARの中核となるのは、オクツリーを用いて3次元空間を圧縮する新しい階層的トークン化である。
これらの戦略を組み合わせることで、Uni-3DARは単一の自動回帰フレームワーク内で多様な3D GUタスクを統一することに成功した。
- 参考スコア(独自算出の注目度): 20.711571319687057
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large language models and their multi-modal extensions have demonstrated the effectiveness of unifying generation and understanding through autoregressive next-token prediction. However, despite the critical role of 3D structural generation and understanding ({3D GU}) in AI for science, these tasks have largely evolved independently, with autoregressive methods remaining underexplored. To bridge this gap, we introduce Uni-3DAR, a unified framework that seamlessly integrates {3D GU} tasks via autoregressive prediction. At its core, Uni-3DAR employs a novel hierarchical tokenization that compresses 3D space using an octree, leveraging the inherent sparsity of 3D structures. It then applies an additional tokenization for fine-grained structural details, capturing key attributes such as atom types and precise spatial coordinates in microscopic 3D structures. We further propose two optimizations to enhance efficiency and effectiveness. The first is a two-level subtree compression strategy, which reduces the octree token sequence by up to 8x. The second is a masked next-token prediction mechanism tailored for dynamically varying token positions, significantly boosting model performance. By combining these strategies, Uni-3DAR successfully unifies diverse {3D GU} tasks within a single autoregressive framework. Extensive experiments across multiple microscopic {3D GU} tasks, including molecules, proteins, polymers, and crystals, validate its effectiveness and versatility. Notably, Uni-3DAR surpasses previous state-of-the-art diffusion models by a substantial margin, achieving up to 256\% relative improvement while delivering inference speeds up to 21.8x faster. The code is publicly available at https://github.com/dptech-corp/Uni-3DAR.
- Abstract(参考訳): 大規模言語モデルとそのマルチモーダル拡張の最近の進歩は、自己回帰的次トーケン予測による生成と理解の統一の有効性を実証している。
しかし、科学におけるAIにおける3D構造生成と理解({3D GU})の重要な役割にもかかわらず、これらのタスクは独立して進化し、自己回帰的手法は未探索のままである。
このギャップを埋めるために、自動回帰予測によって {3D GU} タスクをシームレスに統合する統合フレームワーク Uni-3DAR を導入する。
Uni-3DARのコアとなるのは、Octreeを使って3D空間を圧縮する新しい階層的トークン化である。
その後、微細な構造の詳細にさらなるトークン化を施し、微視的な3D構造における原子タイプや正確な空間座標などの重要な属性をキャプチャする。
さらに,効率と効率性を高めるために2つの最適化を提案する。
1つは2段階のサブツリー圧縮戦略であり、オクツリートークンシーケンスを最大8倍に削減する。
2つ目は、動的に変化するトークンの位置に合わせて調整されたマスク付き次世代予測機構で、モデル性能を大幅に向上させる。
これらの戦略を組み合わせることで、Uni-3DARは単一の自己回帰フレームワーク内で多様な {3D GU} タスクを統一することに成功した。
分子、タンパク質、ポリマー、結晶を含む、複数の顕微鏡的な {3D GU} タスクにわたる大規模な実験は、その有効性と汎用性を検証する。
特筆すべきは、Uni-3DARは従来の最先端拡散モデルをかなり上回り、推論速度を最大21.8倍速くし、256\%の相対的な改善を実現していることである。
コードはhttps://github.com/dptech-corp/Uni-3DARで公開されている。
関連論文リスト
- Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding [16.95099884066268]
ShapeLLM-Omniは、任意のシーケンスで3Dのアセットとテキストを理解し、生成できる3Dの大規模言語モデルである。
3D対応離散トークンに基づいて、3D-Alpacaという大規模連続トレーニングデータセットを革新的に構築する。
我々の研究は、基本的な3D機能を備えたマルチモーダルモデルを効果的に拡張する試みであり、将来の3DネイティブAIの研究に寄与する。
論文 参考訳(メタデータ) (2025-06-02T16:40:50Z) - AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning [27.40106634796608]
大規模マルチモーダルモデル(LMM)は、ディープラーニングにおいて重要な研究対象となっている。
現在、3D LMMは何千もの空間トークンを多モーダル推論に用いており、重要な非効率性に悩まされている。
冗長トークンを動的に生成する適応型空間トークン最適化フレームワークであるAdaToken-3Dを提案する。
論文 参考訳(メタデータ) (2025-05-19T07:11:07Z) - OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation [24.980804600194062]
OctGPTは3次元形状生成のための新しいマルチスケール自己回帰モデルである。
従来の3D自動回帰手法の効率と性能を劇的に向上させる。
高品質でスケーラブルな3Dコンテンツ作成のための新しいパラダイムを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:31:26Z) - SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。
我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。
我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文 参考訳(メタデータ) (2025-04-09T15:38:18Z) - HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation [61.32714172038278]
そこで本稿では, 階層型自動回帰変換器 (HiPART) と呼ばれる新しい2段階の縮退法を提案し, 元のスパース2Dポーズから2次元の高密度ポーズを生成する。
具体的には,高密度な2次元ポーズを階層的なトークンに量子化するマルチスケールスケルトントークン化モジュールを開発し,トークン接続を強化するスケルトン対応アライメントを提案する。
2D-to-3Dリフトの入力として生成された階層的ポーズにより,提案手法は隠蔽シナリオの強い堅牢性を示し,単一フレームベース3Dにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-30T06:15:36Z) - DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning [21.77406648840365]
DeepMeshは、2つの重要なイノベーションを通じてメッシュ生成を最適化するフレームワークである。
データキュレーションと処理の改善とともに、新しいトークン化アルゴリズムが組み込まれている。
複雑な詳細と正確なトポロジを持つメッシュを生成し、精度と品質の両方で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-03-19T14:39:30Z) - ArchComplete: Autoregressive 3D Architectural Design Generation with Hierarchical Diffusion-Based Upsampling [0.0]
ArchCompleteはベクトル量子化モデルからなる2段階のボクセルベースの3D生成パイプラインである。
パイプラインのキーとなるのは、(i) 2.5Dの知覚的損失とともに最適化された、ローカルなパッチ埋め込みのコンテキスト的にリッチなコードブックを学習することです。
ArchCompleteは643ドルという解像度で自動回帰的にモデルを生成し、それを5123ドルまで改良する。
論文 参考訳(メタデータ) (2024-12-23T20:13:27Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - SC-Diff: 3D Shape Completion with Latent Diffusion Models [4.261508855254493]
マルチモーダル条件を統一する新しい3次元形状完備化フレームワークを提案する。
形状はTrncated Signed Distance Function (TSDF) として表現され、2Dと3Dのキューで共同で制御された離散潜在空間に符号化される。
提案手法は, フレキシブルなマルチモーダルコンディショニングにより生成過程をガイドし, 2次元情報と3次元情報の一貫した統合を保証する。
論文 参考訳(メタデータ) (2024-03-19T06:01:11Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。