論文の概要: Learning Task Planning from Multi-Modal Demonstration for Multi-Stage Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2409.11863v1
- Date: Wed, 18 Sep 2024 10:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 18:09:15.064112
- Title: Learning Task Planning from Multi-Modal Demonstration for Multi-Stage Contact-Rich Manipulation
- Title(参考訳): 多段階コンタクトリッチマニピュレーションのためのマルチモーダルデモからの学習課題計画
- Authors: Kejia Chen, Zheng Shen, Yue Zhang, Lingyun Chen, Fan Wu, Zhenshan Bing, Sami Haddadin, Alois Knoll,
- Abstract要約: 本稿では,人間の実演から触覚情報や力覚情報を取り入れた文脈内学習フレームワークを提案する。
本稿では,各モダリティを総合的なタスクプランに順次統合するブートストラップ型推論パイプラインを提案する。
このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。
- 参考スコア(独自算出の注目度): 26.540648608911308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have gained popularity in task planning for long-horizon manipulation tasks. To enhance the validity of LLM-generated plans, visual demonstrations and online videos have been widely employed to guide the planning process. However, for manipulation tasks involving subtle movements but rich contact interactions, visual perception alone may be insufficient for the LLM to fully interpret the demonstration. Additionally, visual data provides limited information on force-related parameters and conditions, which are crucial for effective execution on real robots. In this paper, we introduce an in-context learning framework that incorporates tactile and force-torque information from human demonstrations to enhance LLMs' ability to generate plans for new task scenarios. We propose a bootstrapped reasoning pipeline that sequentially integrates each modality into a comprehensive task plan. This task plan is then used as a reference for planning in new task configurations. Real-world experiments on two different sequential manipulation tasks demonstrate the effectiveness of our framework in improving LLMs' understanding of multi-modal demonstrations and enhancing the overall planning performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長距離操作タスクのタスク計画において人気を集めている。
LLM生成計画の有効性を高めるため、視覚的なデモンストレーションやオンラインビデオが計画プロセスの指針として広く利用されている。
しかし、微妙な動きやリッチな接触相互作用を含む操作タスクでは、視覚的知覚だけでは実演を完全に解釈するには不十分である。
さらに、視覚データは力に関連したパラメータや条件に関する限られた情報を提供しており、実際のロボット上での効果的な実行には不可欠である。
本稿では,人間の実演による触覚情報と力覚情報を組み込んだコンテキスト内学習フレームワークを導入し,LLMが新たなタスクシナリオの計画を生成する能力を向上させる。
本稿では,各モダリティを包括的タスクプランに順次統合するブートストラップ型推論パイプラインを提案する。
このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。
2つの異なるシーケンシャルな操作タスクに関する実世界の実験は、LLMのマルチモーダルな実演理解を改善し、全体的な計画性能を向上させる上で、我々のフレームワークの有効性を実証している。
関連論文リスト
- A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models [15.874604623294427]
マルチパス計画問題には、アウトライン、情報収集、計画といった複数の相互接続ステージが含まれる。
既存の推論アプローチは、この複雑なタスクを効果的に解決するのに苦労しています。
本研究は,LLMエージェントのためのヒューマンライクな計画フレームワークを開発することで,この問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-05-28T14:13:32Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models [5.385540718118656]
大規模言語モデル(LLM)に基づく新しいタスク計画手法であるDELTAを紹介する。
シーングラフをLLM内の環境表現として使用することにより、DELTAは正確な計画問題記述を迅速に生成する。
DELTAは効率的かつ完全に自動化されたタスク計画パイプラインを実現し、高い計画成功率と、最先端技術と比較して計画時間を大幅に短縮できることを示す。
論文 参考訳(メタデータ) (2024-04-04T07:59:24Z) - LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。
本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。
具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文 参考訳(メタデータ) (2024-03-18T08:03:47Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。