論文の概要: LHManip: A Dataset for Long-Horizon Language-Grounded Manipulation Tasks in Cluttered Tabletop Environments
- arxiv url: http://arxiv.org/abs/2312.12036v3
- Date: Mon, 1 Jul 2024 22:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:59:39.062001
- Title: LHManip: A Dataset for Long-Horizon Language-Grounded Manipulation Tasks in Cluttered Tabletop Environments
- Title(参考訳): LHManip: テーブルトップ環境におけるLHManip
- Authors: Federico Ceola, Lorenzo Natale, Niko Sünderhauf, Krishan Rana,
- Abstract要約: 本稿では,200エピソードからなるLong-Horizon Manipulationデータセットについて述べる。
タスクには、グルーピング、プッシュ、積み重ね、非常に散らかった環境でオブジェクトを投げるなど、複数のサブタスクが含まれる。
データセットは、Open X-Embodimentデータセットの一部を構成する176,278の観測-アクションペアで構成されている。
- 参考スコア(独自算出の注目度): 10.395448371001136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instructing a robot to complete an everyday task within our homes has been a long-standing challenge for robotics. While recent progress in language-conditioned imitation learning and offline reinforcement learning has demonstrated impressive performance across a wide range of tasks, they are typically limited to short-horizon tasks -- not reflective of those a home robot would be expected to complete. While existing architectures have the potential to learn these desired behaviours, the lack of the necessary long-horizon, multi-step datasets for real robotic systems poses a significant challenge. To this end, we present the Long-Horizon Manipulation (LHManip) dataset comprising 200 episodes, demonstrating 20 different manipulation tasks via real robot teleoperation. The tasks entail multiple sub-tasks, including grasping, pushing, stacking and throwing objects in highly cluttered environments. Each task is paired with a natural language instruction and multi-camera viewpoints for point-cloud or NeRF reconstruction. In total, the dataset comprises 176,278 observation-action pairs which form part of the Open X-Embodiment dataset. The full LHManip dataset is made publicly available at https://github.com/fedeceola/LHManip.
- Abstract(参考訳): 家庭内で日常的なタスクを完了させるロボットを指示することは、ロボット工学にとって長年の課題だった。
言語条件の模倣学習とオフライン強化学習の最近の進歩は、幅広いタスクにわたる印象的なパフォーマンスを示しているが、それらは通常、短期的なタスクに限られる。
既存のアーキテクチャは、これらの望ましい振る舞いを学習する可能性があるが、実際のロボットシステムに必要な長期的マルチステップデータセットが欠如していることは、大きな課題である。
この目的のために,200エピソードからなるLHManip(Long-Horizon Manipulation)データセットを提案する。
タスクには、グルーピング、プッシュ、積み重ね、非常に散らかった環境でオブジェクトを投げるなど、複数のサブタスクが含まれる。
各タスクは、ポイントクラウドまたはNeRF再構成のための自然言語命令とマルチカメラ視点とペアリングされる。
データセットは、Open X-Embodimentデータセットの一部を構成する176,278の観測-アクションペアで構成されている。
LHManipの全データセットはhttps://github.com/fedeceola/LHManipで公開されている。
関連論文リスト
- Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。