Fugu-MT 論文翻訳(概要): Learning a Universal Human Prior for Dexterous Manipulation from Human Preference

論文の概要: Learning a Universal Human Prior for Dexterous Manipulation from Human Preference

arxiv url: http://arxiv.org/abs/2304.04602v2
Date: Wed, 13 Sep 2023 06:19:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 18:13:26.621563
Title: Learning a Universal Human Prior for Dexterous Manipulation from Human Preference
Title（参考訳）: 人選好によるデクサラスマニピュレーションのための普遍的人間優先学習
Authors: Zihan Ding, Yuanpei Chen, Allen Z. Ren, Shixiang Shane Gu, Qianxu Wang, Hao Dong, Chi Jin
Abstract要約: 本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
参考スコア（独自算出の注目度）: 35.54663426598218
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Scripting policies from scratch is intractable due to the high-dimensional control space, and training policies with reinforcement learning (RL) and manual reward engineering can also be hard and lead to unnatural motions. Leveraging the recent progress on RL from Human Feedback, we propose a framework that learns a universal human prior using direct human preference feedback over videos, for efficiently tuning the RL policies on 20 dual-hand robot manipulation tasks in simulation, without a single human demonstration. A task-agnostic reward model is trained through iteratively generating diverse polices and collecting human preference over the trajectories; it is then applied for regularizing the behavior of polices in the fine-tuning stage. Our method empirically demonstrates more human-like behaviors on robot hands in diverse tasks including even unseen tasks, indicating its generalization capability.
Abstract（参考訳）: ロボットで人間のような行動を起こすことは、特にロボットの手を使った巧妙な操作において大きな課題である。高次元の制御空間のため、スクラッチからのスクリプトポリシーは難解であり、強化学習(RL)と手動報酬工学によるトレーニングポリシーも困難であり、不自然な動作につながる可能性がある。近年のHuman FeedbackからのRLの進歩を生かして、ビデオ上で直接人間の嗜好フィードバックを用いて、人間に先立って普遍的な人間を学習するフレームワークを提案し、シミュレーション中の20個のロボット操作タスクに対して、人間によるデモンストレーションを行なわずにRLポリシーを効率的に調整する。多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することでタスク非依存報酬モデルを訓練し、微調整段階における警察の行動の規則化に応用する。提案手法は,ロボットの手の動作を多種多様なタスクで実証し,その一般化能力を示す。

関連論文リスト

Human-Humanoid Robots Cross-Embodiment Behavior-Skill Transfer Using Decomposed Adversarial Learning from Demonstration [9.42179962375058]
本稿では,デジタル人間モデルを共通プロトタイプとして使用することにより,データのボトルネックを低減するための転送可能なフレームワークを提案する。このモデルは、人間による実演から、敵対的な模倣を通して行動プリミティブを学習し、複雑なロボット構造を機能的な構成要素に分解する。本フレームワークは,多種多様な構成のヒューマノイドロボット5体を用いて検証した。
論文参考訳（メタデータ） (2024-12-19T18:41:45Z)
Learning from Massive Human Videos for Universal Humanoid Pose Control [46.417054298537195]
本稿では,2000万以上のヒューマノイドロボットの大規模データセットであるHumanoid-Xを紹介する。我々は、テキスト命令を入力として受け取り、対応する動作を出力してヒューマノイドロボットを制御する、大きなヒューマノイドモデルUH-1を訓練する。私たちのスケーラブルなトレーニングアプローチは、テキストベースのヒューマノイド制御の優れた一般化につながります。
論文参考訳（メタデータ） (2024-12-18T18:59:56Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文参考訳（メタデータ） (2023-03-30T17:58:36Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)
HERD: Continuous Human-to-Robot Evolution for Learning from Human Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-08T15:56:13Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文参考訳（メタデータ） (2021-08-13T03:14:43Z)
On the Emergence of Whole-body Strategies from Humanoid Robot Push-recovery Learning [32.070068456106895]
シミュレーション環境における汎用的で堅牢なヒューマノイドプッシュリカバリポリシーのトレーニングに,モデルフリーな深層強化学習を適用する。本手法は高次元全体ヒューマノイド制御を目標とし,iCubヒューマノイド上で検証を行った。
論文参考訳（メタデータ） (2021-04-29T17:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。