論文の概要: ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2312.16217v1
- Date: Sun, 24 Dec 2023 06:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:44:44.725590
- Title: ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation
- Title(参考訳): ManipLLM:オブジェクト中心ロボットマニピュレーションのためのマルチモーダル大言語モデル
- Authors: Xiaoqi Li, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan
Shen, Renrui Zhang, Jiaming Liu, Hao Dong
- Abstract要約: MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
- 参考スコア(独自算出の注目度): 22.071450379253235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot manipulation relies on accurately predicting contact points and
end-effector directions to ensure successful operation. However, learning-based
robot manipulation, trained on a limited category within a simulator, often
struggles to achieve generalizability, especially when confronted with
extensive categories. Therefore, we introduce an innovative approach for robot
manipulation that leverages the robust reasoning capabilities of Multimodal
Large Language Models (MLLMs) to enhance the stability and generalization of
manipulation. By fine-tuning the injected adapters, we preserve the inherent
common sense and reasoning ability of the MLLMs while equipping them with the
ability for manipulation. The fundamental insight lies in the introduced
fine-tuning paradigm, encompassing object category understanding, affordance
prior reasoning, and object-centric pose prediction to stimulate the reasoning
ability of MLLM in manipulation. During inference, our approach utilizes an RGB
image and text prompt to predict the end effector's pose in chain of thoughts.
After the initial contact is established, an active impedance adaptation policy
is introduced to plan the upcoming waypoints in a closed-loop manner. Moreover,
in real world, we design a test-time adaptation (TTA) strategy for manipulation
to enable the model better adapt to the current real-world scene configuration.
Experiments in simulator and real-world show the promising performance of
ManipLLM. More details and demonstrations can be found at
https://sites.google.com/view/manipllm.
- Abstract(参考訳): ロボット操作は、コンタクトポイントとエンドエフェクタの方向を正確に予測し、操作を成功させる。
しかしながら、シミュレータ内の限られたカテゴリで訓練された学習ベースのロボット操作は、特に広範なカテゴリに直面した場合、一般化性を達成するのに苦労することが多い。
そこで本稿では,マルチモーダル大規模言語モデル(MLLM)の頑健な推論機能を活用して,ロボット操作の安定性と一般化を図る,革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
基本的な洞察は、オブジェクトカテゴリの理解、手頃な事前推論、操作におけるMLLMの推論能力を刺激するオブジェクト中心のポーズ予測を含む、導入された微調整パラダイムにある。
提案手法では,RGB画像とテキストプロンプトを用いて,エンドエフェクタのポーズを一連の思考で予測する。
最初の接触が確立された後、次のウェイポイントをクローズドループで計画するためにアクティブインピーダンス適応ポリシーが導入される。
さらに,実世界では,モデルが現在の実世界のシーン構成に適応できるように,操作のためのテスト時間適応(tta)戦略を設計する。
シミュレータと実世界の実験では,ManipLLMの性能が期待できる。
詳細とデモはhttps://sites.google.com/view/manipllm.comで見ることができる。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation [30.54275273155153]
MLLM (Multimodal Large Language Models) は、視覚的指示において有望であることを示す。
自己補正(SC)-MLLMを導入し、エンドエフェクタのポーズを予測するだけでなく、障害行動の自律的認識と修正も行う。
SC-MLLMは従来の最先端ロボットMLLM(ManipLLM)と比較して操作精度を著しく向上させる
論文 参考訳(メタデータ) (2024-05-27T17:58:48Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。