論文の概要: SpatialLM: Training Large Language Models for Structured Indoor Modeling
- arxiv url: http://arxiv.org/abs/2506.07491v1
- Date: Mon, 09 Jun 2025 07:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.841094
- Title: SpatialLM: Training Large Language Models for Structured Indoor Modeling
- Title(参考訳): SpaceLM:構造化屋内モデリングのための大規模言語モデルの訓練
- Authors: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou,
- Abstract要約: SpaceLMは3Dポイントクラウドデータを処理し、構造化された3Dシーン理解出力を生成するために設計された大きな言語モデルである。
室内の12,328の点雲と地上の3Dアノテーションからなる大規模で高品質な合成データセットを収集する。
提案モデルでは,3次元物体検出において,レイアウト推定における最先端性能と競合性を示す。
- 参考スコア(独自算出の注目度): 34.0957676434764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SpatialLM is a large language model designed to process 3D point cloud data and generate structured 3D scene understanding outputs. These outputs include architectural elements like walls, doors, windows, and oriented object boxes with their semantic categories. Unlike previous methods which exploit task-specific network designs, our model adheres to the standard multimodal LLM architecture and is fine-tuned directly from open-source LLMs. To train SpatialLM, we collect a large-scale, high-quality synthetic dataset consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with ground-truth 3D annotations, and conduct a careful study on various modeling and training decisions. On public benchmarks, our model gives state-of-the-art performance in layout estimation and competitive results in 3D object detection. With that, we show a feasible path for enhancing the spatial understanding capabilities of modern LLMs for applications in augmented reality, embodied robotics, and more.
- Abstract(参考訳): SpaceLMは3Dポイントクラウドデータを処理し、構造化された3Dシーン理解出力を生成するために設計された大きな言語モデルである。
これらのアウトプットには、壁、ドア、ウィンドウ、セマンティックなカテゴリを持つオブジェクト指向オブジェクトボックスといったアーキテクチャ要素が含まれている。
タスク固有のネットワーク設計を利用する従来の手法とは異なり、我々のモデルは標準のマルチモーダル LLM アーキテクチャに準拠し、オープンソース LLM から直接微調整される。
本研究では,SpatialLMをトレーニングするために,12,328の屋内シーン(54,778部屋)と地上3Dアノテーションからなる大規模で高品質な合成データセットを収集し,様々なモデリングとトレーニングの決定について慎重に研究する。
公開ベンチマークでは,レイアウト推定の最先端性能と3次元オブジェクト検出の競合性を示す。
これにより、拡張現実、具体化ロボティクスなどへの応用において、現代のLLMの空間理解能力を高めるための実現可能な経路が示される。
関連論文リスト
- Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文 参考訳(メタデータ) (2024-06-06T08:53:01Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。