論文の概要: Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback
- arxiv url: http://arxiv.org/abs/2108.05382v1
- Date: Wed, 11 Aug 2021 18:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-14 04:26:27.223350
- Title: Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback
- Title(参考訳): スキル選好:人間のフィードバックからロボットスキルを抽出・抽出する学習
- Authors: Xiaofei Wang, Kimin Lee, Kourosh Hakhamaneshi, Pieter Abbeel, Michael
Laskin
- Abstract要約: Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
- 参考スコア(独自算出の注目度): 82.96694147237113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A promising approach to solving challenging long-horizon tasks has been to
extract behavior priors (skills) by fitting generative models to large offline
datasets of demonstrations. However, such generative models inherit the biases
of the underlying data and result in poor and unusable skills when trained on
imperfect demonstration data. To better align skill extraction with human
intent we present Skill Preferences (SkiP), an algorithm that learns a model
over human preferences and uses it to extract human-aligned skills from offline
data. After extracting human-preferred skills, SkiP also utilizes human
feedback to solve down-stream tasks with RL. We show that SkiP enables a
simulated kitchen robot to solve complex multi-step manipulation tasks and
substantially outperforms prior leading RL algorithms with human preferences as
well as leading skill extraction algorithms without human preferences.
- Abstract(参考訳): 長期的タスクの課題を解決するための有望なアプローチは、生成モデルを大規模なオフラインデータセットに適合させることで、振る舞いの優先順位(スキル)を抽出することである。
しかし、そのような生成モデルは、基礎となるデータのバイアスを継承し、不完全なデモンストレーションデータでトレーニングされた場合、不十分で使用不能なスキルをもたらす。
人間の好みよりもモデルを学習し、オフラインデータから人間に合わせたスキルを抽出するアルゴリズムであるスキル・プレファレンス(skip)を提案する。
人間の好みのスキルを抽出した後、SkiPは人間のフィードバックを使ってRLで下流タスクを解決する。
本研究では,SkiPにより,複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットが実現し,従来のRLアルゴリズムよりも人間の好みを優先するだけでなく,人間の好みを伴わないスキル抽出アルゴリズムも大幅に向上することを示す。
関連論文リスト
- EXTRACT: Efficient Policy Learning by Extracting Transferrable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration [0.5524804393257919]
人間のモデルに最適な振る舞いを先行して使用すると、これらのモデルの方がはるかにデータ効率が良くなることを示す。
また、これらの改良された人間モデルを使用することで、人間とAIのコラボレーションのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-11-03T06:10:22Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。