論文の概要: Language-Conditioned Imitation Learning with Base Skill Priors under
Unstructured Data
- arxiv url: http://arxiv.org/abs/2305.19075v1
- Date: Tue, 30 May 2023 14:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:55:35.993061
- Title: Language-Conditioned Imitation Learning with Base Skill Priors under
Unstructured Data
- Title(参考訳): 非構造化データに基づく基礎スキル優先による言語条件付き模倣学習
- Authors: Hongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang
Yang, Kai Huang, Alois Knoll
- Abstract要約: 言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 21.117440753710245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing interest in language-conditioned robot manipulation aims to
develop robots capable of understanding and executing complex tasks, with the
objective of enabling robots to interpret language commands and manipulate
objects accordingly. While language-conditioned approaches demonstrate
impressive capabilities for addressing tasks in familiar environments, they
encounter limitations in adapting to unfamiliar environment settings. In this
study, we propose a general-purpose, language-conditioned approach that
combines base skill priors and imitation learning under unstructured data to
enhance the algorithm's generalization in adapting to unfamiliar environments.
We assess our model's performance in both simulated and real-world environments
using a zero-shot setting. In the simulated environment, the proposed approach
surpasses previously reported scores for CALVIN benchmark, especially in the
challenging Zero-Shot Multi-Environment setting. The average completed task
length, indicating the average number of tasks the agent can continuously
complete, improves more than 2.5 times compared to the state-of-the-art method
HULC. In addition, we conduct a zero-shot evaluation of our policy in a
real-world setting, following training exclusively in simulated environments
without additional specific adaptations. In this evaluation, we set up ten
tasks and achieved an average 30% improvement in our approach compared to the
current state-of-the-art approach, demonstrating a high generalization
capability in both simulated environments and the real world. For further
details, including access to our code and videos, please refer to our
supplementary materials.
- Abstract(参考訳): 言語条件ロボット操作への関心が高まる中、ロボットが言語コマンドを解釈し、それに従ってオブジェクトを操作することを可能にする目的で、複雑なタスクの理解と実行が可能なロボットの開発が目的である。
言語条件付きアプローチは、慣れ親しんだ環境でタスクに対処するための素晴らしい能力を示しているが、慣れ親しんだ環境設定への適応の限界に遭遇する。
本研究では,非構造化データに基づく基礎的スキル事前学習と模倣学習を組み合わせた汎用的言語条件付き手法を提案し,不慣れな環境に適応するアルゴリズムの一般化を強化する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
シミュレーション環境において,提案手法は,これまでに報告されたカルビンベンチマーク,特に挑戦的ゼロショットマルチ環境設定のスコアを上回った。
エージェントが連続的に完了できるタスクの平均数を示す平均タスク長は、最先端のHULCに比べて2.5倍以上改善されている。
さらに,具体的な適応を伴わずにシミュレーション環境のみを対象としたトレーニングを行い,実世界におけるポリシーのゼロショット評価を行った。
本評価では,10のタスクを設定し,現状のアプローチと比較して平均30%の改善を実現し,シミュレーション環境と実世界の両方において高い一般化能力を示した。
コードやビデオへのアクセスなどの詳細については、追加資料を参照してください。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。