論文の概要: Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference
- arxiv url: http://arxiv.org/abs/2304.04602v1
- Date: Mon, 10 Apr 2023 14:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:52:17.463382
- Title: Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference
- Title(参考訳): 人選好によるデクサラスマニピュレーションのための普遍的人間優先学習
- Authors: Zihan Ding, Yuanpei Chen, Allen Z. Ren, Shixiang Shane Gu, Hao Dong,
Chi Jin
- Abstract要約: 本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,普遍的な人間学習の枠組みを提案する。
1つのタスク非依存報酬モデルが、様々な警察を反復的に生成し、軌道上の人間の嗜好を収集することで訓練される。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
- 参考スコア(独自算出の注目度): 30.372900923080326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating human-like behavior on robots is a great challenge especially in
dexterous manipulation tasks with robotic hands. Even in simulation with no
sample constraints, scripting controllers is intractable due to high degrees of
freedom, and manual reward engineering can also be hard and lead to
non-realistic motions. Leveraging the recent progress on Reinforcement Learning
from Human Feedback (RLHF), we propose a framework to learn a universal human
prior using direct human preference feedback over videos, for efficiently
tuning the RL policy on 20 dual-hand robot manipulation tasks in simulation,
without a single human demonstration. One task-agnostic reward model is trained
through iteratively generating diverse polices and collecting human preference
over the trajectories; it is then applied for regularizing the behavior of
polices in the fine-tuning stage. Our method empirically demonstrates more
human-like behaviors on robot hands in diverse tasks including even unseen
tasks, indicating its generalization capability.
- Abstract(参考訳): ロボットで人間のような行動を起こすことは、特にロボットの手を使った巧妙な操作において大きな課題である。
サンプル制約のないシミュレーションでも、スクリプトコントローラは自由度が高いため難解であり、手動の報酬エンジニアリングは困難であり、非現実的な動きにつながる可能性がある。
近年のRLHF(Reinforcement Learning from Human Feedback, RLHF)の進歩を生かして、ビデオ上で直接人間の嗜好フィードバックを用いて、人間に先立って普遍的な人間を学習する枠組みを提案する。
1つのタスク非依存報酬モデルは、様々な警察を反復的に生成し、軌跡に対する人間の好みを収集することで訓練され、その後、微調整段階における警察の行動の規則化に適用される。
提案手法は,ロボットの手の動作を多種多様なタスクで実証し,その一般化能力を示す。
関連論文リスト
- Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。
シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文 参考訳(メタデータ) (2023-03-30T17:58:36Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z) - On the Emergence of Whole-body Strategies from Humanoid Robot
Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。
本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文 参考訳(メタデータ) (2021-04-29T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。