論文の概要: SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2505.00788v1
- Date: Thu, 01 May 2025 18:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.794416
- Title: SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models
- Title(参考訳): 空間LLM:空間知能大規模マルチモーダルモデルに向けた複合3次元インフォームドデザイン
- Authors: Wufei Ma, Luoxin Ye, Nessa McWeeney, Celso M de Melo, Alan Yuille, Jieneng Chen,
- Abstract要約: 人間は自然に3D空間の関係を理解し、異なる方向から車両の衝突を予測するような複雑な推論を可能にする。
現在の大型マルチモーダルモデル(LMM)は3次元空間推論の能力を欠いている。
本研究では,高度な3次元空間推論能力を持つ大規模マルチモーダルモデルであるSpatialLLMを紹介する。
- 参考スコア(独自算出の注目度): 7.8394059762330786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally understand 3D spatial relationships, enabling complex reasoning like predicting collisions of vehicles from different directions. Current large multimodal models (LMMs), however, lack of this capability of 3D spatial reasoning. This limitation stems from the scarcity of 3D training data and the bias in current model designs toward 2D data. In this paper, we systematically study the impact of 3D-informed data, architecture, and training setups, introducing SpatialLLM, a large multi-modal model with advanced 3D spatial reasoning abilities. To address data limitations, we develop two types of 3D-informed training datasets: (1) 3D-informed probing data focused on object's 3D location and orientation, and (2) 3D-informed conversation data for complex spatial relationships. Notably, we are the first to curate VQA data that incorporate 3D orientation relationships on real images. Furthermore, we systematically integrate these two types of training data with the architectural and training designs of LMMs, providing a roadmap for optimal design aimed at achieving superior 3D reasoning capabilities. Our SpatialLLM advances machines toward highly capable 3D-informed reasoning, surpassing GPT-4o performance by 8.7%. Our systematic empirical design and the resulting findings offer valuable insights for future research in this direction.
- Abstract(参考訳): 人間は自然に3D空間の関係を理解し、異なる方向から車両の衝突を予測するような複雑な推論を可能にする。
しかし、現在の大型マルチモーダルモデル(LMM)では、この3次元空間推論能力が欠如している。
この制限は、3Dトレーニングデータの不足と、現在のモデル設計における2Dデータに対するバイアスに起因している。
本稿では,3次元空間推論能力を持つ大規模マルチモーダルモデルであるSpatialLLMを導入することにより,3次元インフォームドデータ,アーキテクチャ,トレーニング設定の影響を体系的に研究する。
データ制限に対処するため,(1)物体の位置と向きに着目した3次元インフォームド・プロービング・データと(2)複雑な空間関係のための3次元インフォームド・会話・データという,2種類の3次元インフォームド・トレーニング・データセットを開発した。
特に、実画像上の3次元配向関係を組み込んだVQAデータを初めてキュレートする。
さらに,これらの2種類のトレーニングデータをLMMのアーキテクチャおよびトレーニング設計と体系的に統合し,優れた3D推論機能を実現するための最適設計のロードマップを提供する。
われわれのSpatialLLMは高機能な3Dインフォームド推論に向けて機械を推し進め、GPT-4o性能を8.7%上回った。
我々の体系的な経験的設計とその結果は、この方向における将来の研究に貴重な洞察を与えてくれる。
関連論文リスト
- 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。