論文の概要: AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2406.11548v2
- Date: Sun, 23 Jun 2024 12:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 00:04:06.764275
- Title: AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation
- Title(参考訳): AIC MLLM:ロバストロボットマニピュレーションのための自律的対話的補正MLLM
- Authors: Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong,
- Abstract要約: ロボットシステムにとって、失敗を反映し修正する能力は、現実の物体と安定して相互作用することが不可欠である。
従来のアプローチでは,マルチモーダル大規模言語モデルを用いてロボットシステムを強化することを目的としていた。
従来の低レベルな対話体験を利用してSE(3)のポーズを補正する自律的対話補正(AIC)MLLMを提案する。
- 参考スコア(独自算出の注目度): 15.686553204737153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects.Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly.However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses. To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities.We carefully design two types of prompt instructions through interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2)textual descriptions to indicate potential directions for rotation correction.During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts. To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration.Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts.Real-world demonstration can be found at https://sites.google.com/view/aic-mllm
- Abstract(参考訳): 現実の物体と安定して相互作用するロボットシステムにとって、障害を反映し修正する能力は不可欠である。マルチモーダル大規模言語モデル(MLLM)の一般化と推論能力の観察において、従来の手法はロボットシステムを強化するためにこれらのモデルを活用することを目的としていたが、これらの手法は通常、追加のMLLMを用いた高レベル計画修正に焦点を合わせ、低レベル接触ポーズの補正に失敗したサンプルを限定的に活用することに集中している。
このギャップに対処するために,従来の低レベルインタラクション体験を利用してSE(3)のポーズを補正する自律的対話補正(AIC)MLLMを提案する。
特に、AIC MLLMは、まず、ポーズ予測とフィードバックプロンプトの理解能力の両方を取得するために微調整され、1) 位置補正のために移動不能な部分をハイライトする視覚マスク、2) 回転補正のための電位方向を示すテキスト記述の2種類のプロンプト命令を慎重に設計し、推論中に、フィードバック情報抽出モジュールが障害原因を認識するために導入され、AIC MLLMは対応するプロンプトを用いてポーズ予測を適応的に修正する。
そこで我々は,AIC MLLMが現在のシーン構成に適応できるテスト時間適応戦略を考案し,シミュレーション環境と実環境の両方で広範な実験を行い,提案手法の評価を行った。
実世界の実例はhttps://sites.google.com/view/aic-mllmで見ることができる。
関連論文リスト
- Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
VMLの有効性を実証的に評価するために,いくつかの研究を行っている。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation [30.54275273155153]
MLLM (Multimodal Large Language Models) は、視覚的指示において有望であることを示す。
自己補正(SC)-MLLMを導入し、エンドエフェクタのポーズを予測するだけでなく、障害行動の自律的認識と修正も行う。
SC-MLLMは従来の最先端ロボットMLLM(ManipLLM)と比較して操作精度を著しく向上させる
論文 参考訳(メタデータ) (2024-05-27T17:58:48Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。