論文の概要: Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference
- arxiv url: http://arxiv.org/abs/2304.04602v2
- Date: Wed, 13 Sep 2023 06:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 18:13:26.621563
- Title: Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference
- Title(参考訳): 人選好によるデクサラスマニピュレーションのための普遍的人間優先学習
- Authors: Zihan Ding, Yuanpei Chen, Allen Z. Ren, Shixiang Shane Gu, Qianxu
Wang, Hao Dong, Chi Jin
- Abstract要約: 本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
- 参考スコア(独自算出の注目度): 35.54663426598218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating human-like behavior on robots is a great challenge especially in
dexterous manipulation tasks with robotic hands. Scripting policies from
scratch is intractable due to the high-dimensional control space, and training
policies with reinforcement learning (RL) and manual reward engineering can
also be hard and lead to unnatural motions. Leveraging the recent progress on
RL from Human Feedback, we propose a framework that learns a universal human
prior using direct human preference feedback over videos, for efficiently
tuning the RL policies on 20 dual-hand robot manipulation tasks in simulation,
without a single human demonstration. A task-agnostic reward model is trained
through iteratively generating diverse polices and collecting human preference
over the trajectories; it is then applied for regularizing the behavior of
polices in the fine-tuning stage. Our method empirically demonstrates more
human-like behaviors on robot hands in diverse tasks including even unseen
tasks, indicating its generalization capability.
- Abstract(参考訳): ロボットで人間のような行動を起こすことは、特にロボットの手を使った巧妙な操作において大きな課題である。
高次元の制御空間のため、スクラッチからのスクリプトポリシーは難解であり、強化学習(RL)と手動報酬工学によるトレーニングポリシーも困難であり、不自然な動作につながる可能性がある。
近年のHuman FeedbackからのRLの進歩を生かして、ビデオ上で直接人間の嗜好フィードバックを用いて、人間に先立って普遍的な人間を学習するフレームワークを提案し、シミュレーション中の20個のロボット操作タスクに対して、人間によるデモンストレーションを行なわずにRLポリシーを効率的に調整する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することでタスク非依存報酬モデルを訓練し、微調整段階における警察の行動の規則化に応用する。
提案手法は,ロボットの手の動作を多種多様なタスクで実証し,その一般化能力を示す。
関連論文リスト
- Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。
シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文 参考訳(メタデータ) (2023-03-30T17:58:36Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z) - On the Emergence of Whole-body Strategies from Humanoid Robot
Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。
本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文 参考訳(メタデータ) (2021-04-29T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。