論文の概要: Large Language Models and 3D Vision for Intelligent Robotic Perception and Autonomy
- arxiv url: http://arxiv.org/abs/2511.11777v2
- Date: Tue, 18 Nov 2025 03:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.695886
- Title: Large Language Models and 3D Vision for Intelligent Robotic Perception and Autonomy
- Title(参考訳): 知能ロボット知覚と自律のための大規模言語モデルと3次元視覚
- Authors: Vinit Mehta, Charu Sharma, Karthick Thiyagarajan,
- Abstract要約: 3Dビジョンを備えた大規模言語モデル(LLM)は、ロボットセンシング技術の強化に対する変革的なアプローチとして現れている。
本稿では,LLMと3Dビジョンの交わりにおける最先端の方法論,応用,課題を包括的に分析する。
- 参考スコア(独自算出の注目度): 1.7523719472700858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of artificial intelligence and robotics, the integration of Large Language Models (LLMs) with 3D vision is emerging as a transformative approach to enhancing robotic sensing technologies. This convergence enables machines to perceive, reason and interact with complex environments through natural language and spatial understanding, bridging the gap between linguistic intelligence and spatial perception. This review provides a comprehensive analysis of state-of-the-art methodologies, applications and challenges at the intersection of LLMs and 3D vision, with a focus on next-generation robotic sensing technologies. We first introduce the foundational principles of LLMs and 3D data representations, followed by an in-depth examination of 3D sensing technologies critical for robotics. The review then explores key advancements in scene understanding, text-to-3D generation, object grounding and embodied agents, highlighting cutting-edge techniques such as zero-shot 3D segmentation, dynamic scene synthesis and language-guided manipulation. Furthermore, we discuss multimodal LLMs that integrate 3D data with touch, auditory and thermal inputs, enhancing environmental comprehension and robotic decision-making. To support future research, we catalog benchmark datasets and evaluation metrics tailored for 3D-language and vision tasks. Finally, we identify key challenges and future research directions, including adaptive model architectures, enhanced cross-modal alignment and real-time processing capabilities, which pave the way for more intelligent, context-aware and autonomous robotic sensing systems.
- Abstract(参考訳): 人工知能とロボティクスの急速な進歩により、3DビジョンとLarge Language Models(LLM)の統合は、ロボットセンシング技術の強化への転換的アプローチとして現れつつある。
この収束により、機械は自然言語や空間的理解を通じて複雑な環境を知覚、理性化、相互作用し、言語知性と空間的知覚のギャップを埋めることができる。
本稿では,LLMと3Dビジョンの交差における最先端の方法論,応用,課題を包括的に分析し,次世代ロボットセンシング技術に焦点をあてる。
まず,LLMと3Dデータ表現の基本原理を紹介し,ロボット工学に不可欠な3Dセンシング技術について詳細に検討した。
このレビューでは、シーン理解、テキストから3D生成、オブジェクトグラウンド、エンボディエージェントの重要な進歩を探求し、ゼロショット3Dセグメンテーション、動的シーン合成、言語誘導操作などの最先端技術を強調した。
さらに,3次元データを触覚・聴覚・熱入力と統合し,環境理解とロボットによる意思決定を促進するマルチモーダルLCMについても論じる。
今後の研究を支援するため、3D言語および視覚タスクに適したベンチマークデータセットと評価指標をカタログ化した。
最後に、アダプティブモデルアーキテクチャ、クロスモーダルアライメントの強化、リアルタイム処理機能など、重要な課題と今後の研究方向を特定し、よりインテリジェントでコンテキスト対応で自律的なロボットセンシングシステムを実現する。
関連論文リスト
- Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning [28.803789915686398]
3D Queryable Scene Representation(3D QSR)は、3つの補完的な3D表現を統合するマルチメディアデータ上に構築されたフレームワークである。
オブジェクト中心の設計に基づいて構築されたこのフレームワークは、意味的なクエリビリティを実現するために、大きな視覚言語モデルと統合されている。
その結果,シーン理解の促進と空間的および意味的推論の統合が,フレームワークの持つ能力を示す。
論文 参考訳(メタデータ) (2025-09-24T12:53:32Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - A Review of 3D Object Detection with Vision-Language Models [0.31457219084519]
視覚言語モデルを用いた3次元物体検出のための最初の体系的解析を行う。
ポイントクラウドとボクセルグリッドを使った従来のアプローチは、CLIPや3D LLMのようなモダンなビジョン言語フレームワークと比較される。
私たちは、限られた3D言語データセットや計算要求など、現在の課題を強調します。
論文 参考訳(メタデータ) (2025-04-25T23:27:26Z) - Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [130.40123493752816]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。