論文の概要: How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM
- arxiv url: http://arxiv.org/abs/2504.05786v1
- Date: Tue, 08 Apr 2025 08:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:20.241438
- Title: How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM
- Title(参考訳): 3次元キャパシティでLLMを実現するには? : LLMにおける空間共振に関する調査
- Authors: Jirong Zha, Yuxuan Fan, Xiao Yang, Chen Gao, Xinlei Chen,
- Abstract要約: 大規模言語モデル(LLM)は、3D理解タスクを強化するために利用されており、従来のコンピュータビジョン手法を超越する可能性を示している。
本稿では,既存の手法を3つの分野に分類する分類法を提案する。2次元視覚データから3次元理解を導出するイメージベース手法,3次元表現を直接扱うポイントクラウド方式,複数データストリームを組み合わせたハイブリッドモダリティ方式である。
- 参考スコア(独自算出の注目度): 39.65493154187172
- License:
- Abstract: 3D spatial understanding is essential in real-world applications such as robotics, autonomous vehicles, virtual reality, and medical imaging. Recently, Large Language Models (LLMs), having demonstrated remarkable success across various domains, have been leveraged to enhance 3D understanding tasks, showing potential to surpass traditional computer vision methods. In this survey, we present a comprehensive review of methods integrating LLMs with 3D spatial understanding. We propose a taxonomy that categorizes existing methods into three branches: image-based methods deriving 3D understanding from 2D visual data, point cloud-based methods working directly with 3D representations, and hybrid modality-based methods combining multiple data streams. We systematically review representative methods along these categories, covering data representations, architectural modifications, and training strategies that bridge textual and 3D modalities. Finally, we discuss current limitations, including dataset scarcity and computational challenges, while highlighting promising research directions in spatial perception, multi-modal fusion, and real-world applications.
- Abstract(参考訳): 3D空間理解は、ロボット工学、自動運転車、仮想現実、医療画像といった現実世界の応用において不可欠である。
近年,様々な領域で顕著な成功を収めたLarge Language Models (LLM) は,従来のコンピュータビジョン手法を超越した3次元理解タスクの強化に活用されている。
本研究では,LLMと3次元空間理解を統合した手法の総合的なレビューを行う。
本稿では,既存の手法を3つの分野に分類する分類法を提案する。2次元視覚データから3次元理解を導出するイメージベース手法,3次元表現を直接扱うポイントクラウド方式,複数データストリームを組み合わせたハイブリッドモダリティ方式である。
我々はこれらのカテゴリに沿った代表的手法を体系的にレビューし、データ表現、アーキテクチャ修正、テキストと3Dのモダリティを橋渡しするトレーニング戦略について述べる。
最後に、データセットの不足や計算上の課題など、現在の制限について議論するとともに、空間認識、マルチモーダル融合、実世界の応用における有望な研究方向を強調した。
関連論文リスト
- Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。