論文の概要: Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation
- arxiv url: http://arxiv.org/abs/2501.18733v1
- Date: Thu, 30 Jan 2025 20:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:01.221092
- Title: Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation
- Title(参考訳): 一般化可能な操作のためのLMMプランナと3次元スキルポリシの統合
- Authors: Yuelei Li, Ge Yan, Annabella Macaluso, Mazeyu Ji, Xueyan Zou, Xiaolong Wang,
- Abstract要約: LMMプランナと3Dスキルポリシを統合可能なフレームワークであるLMM-3DPを紹介する。
当社のアプローチは,高レベルの計画,低レベルの制御,効果的な統合という,3つの重要な視点で構成されています。
その結果,低レベル制御では1.45倍,高レベルの計画精度では1.5倍に向上した。
- 参考スコア(独自算出の注目度): 16.001018650145742
- License:
- Abstract: The recent advancements in visual reasoning capabilities of large multimodal models (LMMs) and the semantic enrichment of 3D feature fields have expanded the horizons of robotic capabilities. These developments hold significant potential for bridging the gap between high-level reasoning from LMMs and low-level control policies utilizing 3D feature fields. In this work, we introduce LMM-3DP, a framework that can integrate LMM planners and 3D skill Policies. Our approach consists of three key perspectives: high-level planning, low-level control, and effective integration. For high-level planning, LMM-3DP supports dynamic scene understanding for environment disturbances, a critic agent with self-feedback, history policy memorization, and reattempts after failures. For low-level control, LMM-3DP utilizes a semantic-aware 3D feature field for accurate manipulation. In aligning high-level and low-level control for robot actions, language embeddings representing the high-level policy are jointly attended with the 3D feature field in the 3D transformer for seamless integration. We extensively evaluate our approach across multiple skills and long-horizon tasks in a real-world kitchen environment. Our results show a significant 1.45x success rate increase in low-level control and an approximate 1.5x improvement in high-level planning accuracy compared to LLM-based baselines. Demo videos and an overview of LMM-3DP are available at https://lmm-3dp-release.github.io.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の視覚的推論能力の最近の進歩と3次元特徴場のセマンティックエンリッチ化により、ロボット能力の地平を広げている。
これらの発展は、LMMからの高レベル推論と3次元特徴場を利用した低レベル制御ポリシーのギャップを埋める大きな可能性を秘めている。
本研究では,LMMプランナと3Dスキルポリシを統合可能なフレームワークであるLMM-3DPを紹介する。
当社のアプローチは,高レベルの計画,低レベルの制御,効果的な統合という,3つの重要な視点で構成されています。
高レベルの計画では、LMM-3DPは環境障害に対する動的シーン理解、自己フィードバックのある批判エージェント、履歴ポリシーの記憶、失敗後の再試行をサポートする。
低レベル制御のために、LMM-3DPはセマンティック・アウェアな3D特徴場を用いて正確な操作を行う。
ロボット動作に対する高レベルかつ低レベルな制御の調整において、高レベルなポリシーを表す言語埋め込みは、シームレスな統合のための3Dトランスフォーマーの3D特徴フィールドに共同で参加する。
現実のキッチン環境では,複数のスキルや長時間の作業にまたがるアプローチを幅広く評価する。
その結果,低レベル制御では1.45倍,高レベル計画精度では1.5倍に向上した。
デモビデオとLMM-3DPの概要はhttps://lmm-3dp-release.github.ioで公開されている。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy [68.50785963043161]
GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。
LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
論文 参考訳(メタデータ) (2024-10-02T09:02:34Z) - LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models [6.860460230412773]
移動体エージェントのためのLLM方式の経路計画フレームワークを提案する。
提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。
本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。
論文 参考訳(メタデータ) (2024-07-02T12:38:46Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。