論文の概要: Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills
- arxiv url: http://arxiv.org/abs/2104.07749v1
- Date: Thu, 15 Apr 2021 20:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:12:28.166137
- Title: Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills
- Title(参考訳): 動作可能なモデル:ロボットスキルの教師なしオフライン強化学習
- Authors: Yevgen Chebotar, Karol Hausman, Yao Lu, Ted Xiao, Dmitry Kalashnikov,
Jake Varley, Alex Irpan, Benjamin Eysenbach, Ryan Julian, Chelsea Finn,
Sergey Levine
- Abstract要約: 与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
- 参考スコア(独自算出の注目度): 93.12417203541948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning useful robotic skills from previously
collected offline data without access to manually specified rewards or
additional online exploration, a setting that is becoming increasingly
important for scaling robot learning by reusing past robotic data. In
particular, we propose the objective of learning a functional understanding of
the environment by learning to reach any goal state in a given dataset. We
employ goal-conditioned Q-learning with hindsight relabeling and develop
several techniques that enable training in a particularly challenging offline
setting. We find that our method can operate on high-dimensional camera images
and learn a variety of skills on real robots that generalize to previously
unseen scenes and objects. We also show that our method can learn to reach
long-horizon goals across multiple episodes, and learn rich representations
that can help with downstream tasks through pre-training or auxiliary
objectives. The videos of our experiments can be found at
https://actionable-models.github.io
- Abstract(参考訳): これまでに収集したオフラインデータから,手作業による報酬や追加のオンライン探索を行なわずに,有用なロボットスキルを習得する問題は,過去のロボットデータを再利用することで,ロボット学習のスケール化においてますます重要になっている。
特に,与えられたデータセットの任意の目標状態に到達することを学習することで,環境の機能的理解を学習する目的を提案する。
我々は,特に難易度の高いオフライン環境でのトレーニングを可能にする技術を開発し,後向きの学習による目標条件付きQ-ラーニングを採用する。
提案手法は高次元カメラ画像上で動作し,これまで見られなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
また,本手法は,複数のエピソードにまたがって長いホリゾン目標を達成し,事前訓練や補助目的を通じて下流タスクに役立つリッチ表現を学習できることも示す。
実験のビデオはhttps://actionable-models.github.ioで見ることができる。
関連論文リスト
- Unsupervised Skill Discovery for Robotic Manipulation through Automatic Task Generation [17.222197596599685]
本稿では,多数の自律的タスクを解くことで構成可能な振る舞いを発見するスキル学習手法を提案する。
本手法は,ロボットが環境内の物体と連続的かつ堅牢に対話することを可能にするスキルを学習する。
学習したスキルは、シミュレーションだけでなく、本物のロボットプラットフォーム上でも、目に見えない操作タスクのセットを解決するために使用できる。
論文 参考訳(メタデータ) (2024-10-07T09:19:13Z) - Learning by Watching: A Review of Video-based Learning Approaches for
Robot Manipulation [0.0]
最近の研究は、オンラインで公開されている豊富な動画を受動的に視聴することで、学習操作のスキルを探求している。
本調査では,映像特徴表現学習技術,物価理解,3次元ハンド・ボディ・モデリング,大規模ロボット資源などの基礎を概観する。
ロボット操作の一般化とサンプル効率を高めるために,大規模な人的映像を観察することのみから学習する方法を論じる。
論文 参考訳(メタデータ) (2024-02-11T08:41:42Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。