論文の概要: Spatial 3D-LLM: Exploring Spatial Awareness in 3D Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.16524v1
- Date: Tue, 22 Jul 2025 12:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.106386
- Title: Spatial 3D-LLM: Exploring Spatial Awareness in 3D Vision-Language Models
- Title(参考訳): 空間3D-LLM:3次元視覚言語モデルにおける空間認識の探索
- Authors: Xiaoyan Wang, Zeju Li, Yifan Xu, Jiaxing Qi, Zhifei Yang, Ruifei Ma, Xiangde Liu, Chao Zhang,
- Abstract要約: 新しい時代は、大規模言語モデル(LLM)を拡張して3Dビジョン言語タスクに取り組むという、エキサイティングな可能性を解き放ちました。
本研究では,3次元視覚言語タスクの空間認識を高めるために設計された3次元MLLMであるSpatial 3D-LLMを提案する。
本稿では,3次元物体距離計測と3次元レイアウト編集の2つの新しいタスクを紹介し,モデルの空間認識能力を評価するために3次元命令データセットであるMODELを構築した。
- 参考スコア(独自算出の注目度): 12.545622346725544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New era has unlocked exciting possibilities for extending Large Language Models (LLMs) to tackle 3D vision-language tasks. However, most existing 3D multimodal LLMs (MLLMs) rely on compressing holistic 3D scene information or segmenting independent objects to perform these tasks, which limits their spatial awareness due to insufficient representation of the richness inherent in 3D scenes. To overcome these limitations, we propose Spatial 3D-LLM, a 3D MLLM specifically designed to enhance spatial awareness for 3D vision-language tasks by enriching the spatial embeddings of 3D scenes. Spatial 3D-LLM integrates an LLM backbone with a progressive spatial awareness scheme that progressively captures spatial information as the perception field expands, generating location-enriched 3D scene embeddings to serve as visual prompts. Furthermore, we introduce two novel tasks: 3D object distance measurement and 3D layout editing, and construct a 3D instruction dataset, MODEL, to evaluate the model's spatial awareness capabilities. Experimental results demonstrate that Spatial 3D-LLM achieves state-of-the-art performance across a wide range of 3D vision-language tasks, revealing the improvements stemmed from our progressive spatial awareness scheme of mining more profound spatial information. Our code is available at https://github.com/bjshuyuan/Spatial-3D-LLM.
- Abstract(参考訳): 新しい時代は、大規模言語モデル(LLM)を拡張して3Dビジョン言語タスクに取り組むという、エキサイティングな可能性を解き放ちました。
しかし、既存の3DマルチモーダルLCM(MLLM)の多くは、これらのタスクを実行するために、全体的な3Dシーン情報を圧縮したり、独立したオブジェクトをセグメント化することに依存しており、3Dシーン固有のリッチさの表現が不十分なため、空間的認識を制限している。
これらの制約を克服するために,3次元視覚言語タスクの空間的認識を高めるために,空間的3D-LLMを提案する。
空間3D-LLMは、LLMバックボーンとプログレッシブな空間認識スキームを統合し、知覚場が拡大するにつれて空間情報を段階的にキャプチャし、位置情報に富んだ3Dシーンの埋め込みを生成して視覚的プロンプトとして機能する。
さらに,3次元物体距離計測と3次元レイアウト編集の2つの新しいタスクを導入し,モデルの空間認識能力を評価するために3次元命令データセットであるMODELを構築した。
実験の結果,空間的3D-LLMは様々な3次元視覚言語タスクにまたがって最先端の性能を実現し,より深い空間情報をマイニングする進歩的空間認識スキームに起因した改善が示された。
私たちのコードはhttps://github.com/bjshuyuan/Spatial-3D-LLM.comで公開されています。
関連論文リスト
- Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation [61.21302433849139]
VLN(Vision-and-Language Navigation)は、生体エージェントが空間移動を利用して3D環境をナビゲートするコアタスクである。
ナビゲーション動作予測において3D-VLMを学習するための視覚入力として,言語整列,一般化,階層的な3D表現を利用する動的階層化3D表現モデルDynam3Dを提案する。
我々のDynam3Dは3Dインスタンスのオンラインエンコーディングとローカライズが可能であり、それを動的に更新することで、ナビゲーションのための大規模な探索と長期記憶機能を提供する。
論文 参考訳(メタデータ) (2025-05-16T15:46:27Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。
また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文 参考訳(メタデータ) (2024-10-04T19:22:20Z) - LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness [22.408933972095763]
我々はLLaVA-3Dと呼ばれるシンプルだが効果的なフレームワークを紹介した。
2D理解能力を損なうことなく、3Dシーン理解にLLaVAを効率的に適用する。
LLaVA-3Dは、3Dビジョン言語データセットでトレーニングされた場合、既存の3D LMMよりも3.5倍高速に収束する。
論文 参考訳(メタデータ) (2024-09-26T17:59:11Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。