論文の概要: Learning Task Planning from Multi-Modal Demonstration for Multi-Stage Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2409.11863v1
- Date: Wed, 18 Sep 2024 10:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 18:09:15.064112
- Title: Learning Task Planning from Multi-Modal Demonstration for Multi-Stage Contact-Rich Manipulation
- Title(参考訳): 多段階コンタクトリッチマニピュレーションのためのマルチモーダルデモからの学習課題計画
- Authors: Kejia Chen, Zheng Shen, Yue Zhang, Lingyun Chen, Fan Wu, Zhenshan Bing, Sami Haddadin, Alois Knoll,
- Abstract要約: 本稿では,人間の実演から触覚情報や力覚情報を取り入れた文脈内学習フレームワークを提案する。
本稿では,各モダリティを総合的なタスクプランに順次統合するブートストラップ型推論パイプラインを提案する。
このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。
- 参考スコア(独自算出の注目度): 26.540648608911308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have gained popularity in task planning for long-horizon manipulation tasks. To enhance the validity of LLM-generated plans, visual demonstrations and online videos have been widely employed to guide the planning process. However, for manipulation tasks involving subtle movements but rich contact interactions, visual perception alone may be insufficient for the LLM to fully interpret the demonstration. Additionally, visual data provides limited information on force-related parameters and conditions, which are crucial for effective execution on real robots. In this paper, we introduce an in-context learning framework that incorporates tactile and force-torque information from human demonstrations to enhance LLMs' ability to generate plans for new task scenarios. We propose a bootstrapped reasoning pipeline that sequentially integrates each modality into a comprehensive task plan. This task plan is then used as a reference for planning in new task configurations. Real-world experiments on two different sequential manipulation tasks demonstrate the effectiveness of our framework in improving LLMs' understanding of multi-modal demonstrations and enhancing the overall planning performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長距離操作タスクのタスク計画において人気を集めている。
LLM生成計画の有効性を高めるため、視覚的なデモンストレーションやオンラインビデオが計画プロセスの指針として広く利用されている。
しかし、微妙な動きやリッチな接触相互作用を含む操作タスクでは、視覚的知覚だけでは実演を完全に解釈するには不十分である。
さらに、視覚データは力に関連したパラメータや条件に関する限られた情報を提供しており、実際のロボット上での効果的な実行には不可欠である。
本稿では,人間の実演による触覚情報と力覚情報を組み込んだコンテキスト内学習フレームワークを導入し,LLMが新たなタスクシナリオの計画を生成する能力を向上させる。
本稿では,各モダリティを包括的タスクプランに順次統合するブートストラップ型推論パイプラインを提案する。
このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。
2つの異なるシーケンシャルな操作タスクに関する実世界の実験は、LLMのマルチモーダルな実演理解を改善し、全体的な計画性能を向上させる上で、我々のフレームワークの有効性を実証している。
関連論文リスト
- Zero-shot Robotic Manipulation with Language-guided Instruction and Formal Task Planning [16.89900521727246]
本稿では,言語誘導型シンボリックタスク計画(LM-SymOpt)フレームワークの最適化を提案する。
大規模言語モデルからの世界的知識と公式な推論を組み合わせた最初のエキスパートフリーな計画フレームワークです。
実験の結果,LM-SymOpt は既存の LLM ベースの計画手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-25T13:33:22Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - PlanLLM: Video Procedure Planning with Refinable Large Language Models [5.371855090716962]
ビデオプロシージャ計画、すなわち、開始とゴール状態のビデオフレームが与えられた一連のアクションステップを計画することは、AIを具現化する上で不可欠な能力である。
最近の研究は、Large Language Models (LLMs) を用いて、リッチなアクションステップ記述テキストを生成し、アクションステップのデコーディングをガイドしている。
ビデオプロシージャ計画のためのLLMを用いたクロスモーダル共同学習フレームワークPlanLLMを提案する。
論文 参考訳(メタデータ) (2024-12-26T09:51:05Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。
本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。
具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文 参考訳(メタデータ) (2024-03-18T08:03:47Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。