論文の概要: ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2312.16217v1
- Date: Sun, 24 Dec 2023 06:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:44:44.725590
- Title: ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation
- Title(参考訳): ManipLLM:オブジェクト中心ロボットマニピュレーションのためのマルチモーダル大言語モデル
- Authors: Xiaoqi Li, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan
Shen, Renrui Zhang, Jiaming Liu, Hao Dong
- Abstract要約: MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
- 参考スコア(独自算出の注目度): 22.071450379253235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot manipulation relies on accurately predicting contact points and
end-effector directions to ensure successful operation. However, learning-based
robot manipulation, trained on a limited category within a simulator, often
struggles to achieve generalizability, especially when confronted with
extensive categories. Therefore, we introduce an innovative approach for robot
manipulation that leverages the robust reasoning capabilities of Multimodal
Large Language Models (MLLMs) to enhance the stability and generalization of
manipulation. By fine-tuning the injected adapters, we preserve the inherent
common sense and reasoning ability of the MLLMs while equipping them with the
ability for manipulation. The fundamental insight lies in the introduced
fine-tuning paradigm, encompassing object category understanding, affordance
prior reasoning, and object-centric pose prediction to stimulate the reasoning
ability of MLLM in manipulation. During inference, our approach utilizes an RGB
image and text prompt to predict the end effector's pose in chain of thoughts.
After the initial contact is established, an active impedance adaptation policy
is introduced to plan the upcoming waypoints in a closed-loop manner. Moreover,
in real world, we design a test-time adaptation (TTA) strategy for manipulation
to enable the model better adapt to the current real-world scene configuration.
Experiments in simulator and real-world show the promising performance of
ManipLLM. More details and demonstrations can be found at
https://sites.google.com/view/manipllm.
- Abstract(参考訳): ロボット操作は、コンタクトポイントとエンドエフェクタの方向を正確に予測し、操作を成功させる。
しかしながら、シミュレータ内の限られたカテゴリで訓練された学習ベースのロボット操作は、特に広範なカテゴリに直面した場合、一般化性を達成するのに苦労することが多い。
そこで本稿では,マルチモーダル大規模言語モデル(MLLM)の頑健な推論機能を活用して,ロボット操作の安定性と一般化を図る,革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
基本的な洞察は、オブジェクトカテゴリの理解、手頃な事前推論、操作におけるMLLMの推論能力を刺激するオブジェクト中心のポーズ予測を含む、導入された微調整パラダイムにある。
提案手法では,RGB画像とテキストプロンプトを用いて,エンドエフェクタのポーズを一連の思考で予測する。
最初の接触が確立された後、次のウェイポイントをクローズドループで計画するためにアクティブインピーダンス適応ポリシーが導入される。
さらに,実世界では,モデルが現在の実世界のシーン構成に適応できるように,操作のためのテスト時間適応(tta)戦略を設計する。
シミュレータと実世界の実験では,ManipLLMの性能が期待できる。
詳細とデモはhttps://sites.google.com/view/manipllm.comで見ることができる。
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [65.46610405509338]
Track2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象の剛体変換列を推定し、ロボットのエンドエフェクタのポーズを得る。
学習したトラック予測を残留ポリシーと組み合わせることで、ゼロショットロボットの操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Towards Transferring Tactile-based Continuous Force Control Policies
from Simulation to Robot [19.789369416528604]
グリップフォースコントロールは、物体に作用する力の量を制限することによって、物体を安全に操作することを目的としている。
以前の作品では、手動制御器、モデルベースのアプローチ、あるいはsim-to-realトランスファーを示さなかった。
シミュレーションで訓練されたモデルなしの深層強化学習手法を提案し,さらに微調整を行わずにロボットに移行した。
論文 参考訳(メタデータ) (2023-11-13T11:29:06Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。