論文の概要: Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding
- arxiv url: http://arxiv.org/abs/2512.12822v1
- Date: Sun, 14 Dec 2025 20:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.458827
- Title: Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding
- Title(参考訳): Lemon: 普遍的空間理解のための統一的でスケーラブルな3次元マルチモーダルモデル
- Authors: Yongyuan Liang, Xiyao Wang, Yuanchen Ju, Jianwei Yang, Furong Huang,
- Abstract要約: Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 80.66591664266744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling large multimodal models (LMMs) to 3D understanding poses unique challenges: point cloud data is sparse and irregular, existing models rely on fragmented architectures with modality-specific encoders, and training pipelines often suffer from instability and poor scalability. We introduce Lemon, a unified transformer architecture that addresses these challenges by jointly processing 3D point cloud patches and language tokens as a single sequence. Unlike prior work that relies on modality-specific encoders and cross-modal alignment modules, this design enables early spatial-linguistic fusion, eliminates redundant encoders, improves parameter efficiency, and supports more effective model scaling. To handle the complexity of 3D data, we develop a structured patchification and tokenization scheme that preserves spatial context, and a three-stage training curriculum that progressively builds capabilities from object-level recognition to scene-level spatial reasoning. Lemon establishes new state-of-the-art performance across comprehensive 3D understanding and reasoning tasks, from object recognition and captioning to spatial reasoning in 3D scenes, while demonstrating robust scaling properties as model size and training data increase. Our work provides a unified foundation for advancing 3D spatial intelligence in real-world applications.
- Abstract(参考訳): ポイントクラウドデータはスパースで不規則であり、既存のモデルはモダリティ固有のエンコーダを備えた断片化されたアーキテクチャに依存しており、トレーニングパイプラインは不安定さとスケーラビリティに悩まされることが多い。
我々は3Dポイントクラウドパッチと言語トークンを単一シーケンスとして共同処理することで,これらの課題に対処する統一型トランスフォーマーアーキテクチャであるLemonを紹介した。
モダリティ固有のエンコーダやクロスモーダルアライメントモジュールに依存する以前の作業とは異なり、この設計は初期の空間言語融合を可能にし、冗長エンコーダを排除し、パラメータ効率を向上し、より効率的なモデルスケーリングをサポートする。
3次元データの複雑さに対処するため,空間コンテキストを保存した構造化パッチ化・トークン化手法と,オブジェクトレベルの認識からシーンレベルの空間推論まで,段階的に機能を構築する3段階トレーニングカリキュラムを開発する。
Lemonは、オブジェクト認識やキャプションから3Dシーンにおける空間的推論に至るまで、包括的な3D理解および推論タスクにまたがる新しい最先端のパフォーマンスを確立し、モデルサイズやトレーニングデータの増加とともに、堅牢なスケーリング特性を実証する。
我々の研究は、現実世界の応用における3次元空間知能の進歩のための統一的な基盤を提供する。
関連論文リスト
- Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework [40.17218893870908]
LTM3Dは条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークである。
拡散と自己回帰(Auto-Regressive、AR)モデルの強みを統合する。
LTM3Dはマルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-30T06:08:45Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。