論文の概要: Do 3D Large Language Models Really Understand 3D Spatial Relationships?
- arxiv url: http://arxiv.org/abs/2603.23523v1
- Date: Fri, 06 Mar 2026 16:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.010758
- Title: Do 3D Large Language Models Really Understand 3D Spatial Relationships?
- Title(参考訳): 3次元大規模言語モデルは3次元空間的関係を本当に理解しているか?
- Authors: Xianzheng Ma, Tao Sun, Shuai Chen, Yash Bhalgat, Jindong Gu, Angel X Chang, Iro Armeni, Iro Laina, Songyou Peng, Victor Adrian Prisacariu,
- Abstract要約: 3次元大言語モデルは3次元世界、特に物体間の空間的関係を理解していると主張している。
テキストのみの質問応答ペア上での言語モデルの微調整は、3D入力を使わずにSQA3Dベンチマークでこれらの手法を相容・超越することができる。
本稿では,より厳密な評価ベンチマークであるReal-3DQAを紹介する。
- 参考スコア(独自算出の注目度): 80.64317885117704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent 3D Large-Language Models (3D-LLMs) claim to understand 3D worlds, especially spatial relationships among objects. Yet, we find that simply fine-tuning a language model on text-only question-answer pairs can perform comparably or even surpass these methods on the SQA3D benchmark without using any 3D input. This indicates that the SQA3D benchmark may not be able to detect if the model exploits textual shortcuts rather than engages in 3D-aware reasoning. To address this issue, we introduce Real-3DQA, a more rigorous evaluation benchmark that filters out easy-to-guess questions and introduces a structured taxonomy to assess various aspects of 3D reasoning. Experiments on Real-3DQA confirm that existing 3D-LLMs struggle with spatial relationships once simple cues are removed. We further propose a 3D-reweighted training objective that guides model to rely more on 3D visual clues, substantially enhancing 3D-LLMs performance in spatial reasoning tasks. Our findings underscore the need for robust benchmarks and tailored training strategies to advance genuine 3D vision-language understanding. Project page: https://real-3dqa.github.io/.
- Abstract(参考訳): 最近の3次元大言語モデル(3D-LLMs)は、3次元世界、特に物体間の空間的関係を理解していると主張している。
しかし、3D入力を使わずに、SQA3Dベンチマークで、テキストのみの問合せ対で言語モデルを微調整すれば、これらの手法を相容・超越できることがわかった。
これは、SQA3Dベンチマークが、モデルが3D認識推論に携わるのではなく、テキストのショートカットを利用するかどうかを検出することができないことを示している。
この問題に対処するために,より厳密な評価ベンチマークであるReal-3DQAを導入する。
Real-3DQAの実験により、既存の3D-LLMは単純な手がかりが取り除かれると空間的関係に苦しむことが確認された。
さらに,3次元視覚的手がかりをモデルに頼りやすくし,空間推論タスクにおける3次元LLMの性能を大幅に向上させる3次元重み付け学習目標を提案する。
我々の研究結果は、真の3D視覚言語理解を促進するための堅牢なベンチマークとトレーニング戦略の必要性を浮き彫りにした。
プロジェクトページ: https://real-3dqa.github.io/.com
関連論文リスト
- N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models [45.008146973701855]
N3D-VLMは、ネイティブな3Dオブジェクト認識と3D認識の視覚的推論をシームレスに統合する新しい統合フレームワークである。
RGB/RGB-D入力からの回答を直接予測する従来のエンドツーエンドモデルとは異なり、本手法はネイティブな3Dオブジェクト認識機能を備えたモデルである。
論文 参考訳(メタデータ) (2025-12-18T14:03:44Z) - LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルである
センサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-04-19T02:51:24Z) - SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文 参考訳(メタデータ) (2025-03-08T16:31:48Z) - Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。