Fugu-MT 論文翻訳(概要): A Framework for Learning from Demonstration with Minimal Human Effort

論文の概要: A Framework for Learning from Demonstration with Minimal Human Effort

arxiv url: http://arxiv.org/abs/2306.09211v1
Date: Thu, 15 Jun 2023 15:49:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 14:06:27.316053
Title: A Framework for Learning from Demonstration with Minimal Human Effort
Title（参考訳）: 最小限の人的努力による実証から学ぶための枠組み
Authors: Marc Rigter, Bruno Lacerda, Nick Hawes
Abstract要約: ロボット学習は、システムの制御が人間の遠隔操作と自律的な制御とを切り替えることのできる、共有自律という文脈で考える。この設定では、強化学習と、人的時間に関連するコストがある実演からの学習に対処する。提案手法は,2つのシミュレートされたタスクと1つの実世界のタスクを実行するための人件費を削減できることを示す。
参考スコア（独自算出の注目度）: 11.183124892686239
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider robot learning in the context of shared autonomy, where control of the system can switch between a human teleoperator and autonomous control. In this setting we address reinforcement learning, and learning from demonstration, where there is a cost associated with human time. This cost represents the human time required to teleoperate the robot, or recover the robot from failures. For each episode, the agent must choose between requesting human teleoperation, or using one of its autonomous controllers. In our approach, we learn to predict the success probability for each controller, given the initial state of an episode. This is used in a contextual multi-armed bandit algorithm to choose the controller for the episode. A controller is learnt online from demonstrations and reinforcement learning so that autonomous performance improves, and the system becomes less reliant on the teleoperator with more experience. We show that our approach to controller selection reduces the human cost to perform two simulated tasks and a single real-world task.
Abstract（参考訳）: 我々は,ロボット学習を共有自律の文脈で考える。システムの制御は,人間の遠隔操作と自律制御に切り替えることができる。この環境では、強化学習と、人間の時間に関連するコストがあるデモから学ぶことを取り上げます。このコストは、ロボットを遠隔操作したり、失敗からロボットを回収するのに要する時間を表す。各エピソードでは、エージェントは人間の遠隔操作をリクエストするか、自走式コントローラのいずれかを使うかを選ばなければならない。私たちのアプローチでは、エピソードの初期状態を考えると、各コントローラの成功確率を予測することを学びます。これは、エピソードのコントローラを選択するために、コンテキスト多重武装バンディットアルゴリズムで使用される。コントローラはデモや強化学習からオンラインで学習され、自律的なパフォーマンスが向上し、システムはより多くの経験を持つテレオペレータに依存しなくなる。提案手法は,2つのシミュレーションタスクと1つの実世界のタスクを実行するための人的コストを削減する。

関連論文リスト

JAEGER: Dual-Level Humanoid Whole-Body Controller [32.03749020468113]
JAEGER(JAEGER)は、ヒューマノイドロボット用の二段式ボディコントローラである。より堅牢で多目的な政策をトレーニングする上での課題に対処する。
論文参考訳（メタデータ） (2025-05-10T10:10:19Z)
Zero-Cost Whole-Body Teleoperation for Mobile Manipulation [8.71539730969424]
MoMa-Teleopは、ベースモーションを強化学習エージェントに委譲する新しい遠隔操作手法である。提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文参考訳（メタデータ） (2024-09-23T15:09:45Z)
Unifying 3D Representation and Control of Diverse Robots with a Single Camera [48.279199537720714]
我々は,ロボットを視覚のみからモデル化し,制御することを自律的に学習するアーキテクチャであるNeural Jacobian Fieldsを紹介する。提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文参考訳（メタデータ） (2024-07-11T17:55:49Z)
Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文参考訳（メタデータ） (2024-06-29T03:37:29Z)
Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文参考訳（メタデータ） (2023-06-06T01:36:56Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
PATO: Policy Assisted TeleOperation for Scalable Robot Data Collection [19.04536551595612]
Policy Assisted TeleOperation (PATO) は、学習された支援ポリシーを用いて、デモ収集プロセスの一部を自動化するシステムである。 PATOはデータ収集における反復的な動作を自律的に実行し、どのサブタスクや動作を実行するかが不確実な場合にのみ人間の入力を要求する。
論文参考訳（メタデータ） (2022-12-09T07:38:09Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots [87.32145104894754]
四足歩行ロボットのための汎用ロコモーション(GenLoco)コントローラを訓練するためのフレームワークを提案する。本フレームワークは,多種多様な四足歩行ロボットに展開可能な汎用ロコモーションコントローラを合成する。我々のモデルは、より一般的な制御戦略を取得し、新しいシミュレーションロボットや実世界のロボットに直接移行できることを示す。
論文参考訳（メタデータ） (2022-09-12T15:14:32Z)
Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans on Youtube [24.530131506065164]
我々は、人間なら誰でもロボットの手と腕を制御できるシステムを構築します。ロボットは、人間のオペレーターを1台のRGBカメラで観察し、その動作をリアルタイムで模倣する。我々はこのデータを利用して、人間の手を理解するシステムを訓練し、人間のビデオストリームをスムーズで、素早く、安全に、意味論的に誘導デモに類似したロボットのハンドアーム軌道に再ターゲティングする。
論文参考訳（メタデータ） (2022-02-21T18:59:59Z)
Training Robots without Robots: Deep Imitation Learning for Master-to-Robot Policy Transfer [4.318590074766604]
深層模倣学習は、デモサンプルのみを必要とするため、ロボット操作に有望である。既存の実証手法には欠点があり、双方向遠隔操作には複雑な制御方式が必要であり、高価である。本研究は、力覚フィードバックに基づく操作タスクをロボットに教える必要がない新しいM2Rポリシー伝達システムを提案する。
論文参考訳（メタデータ） (2022-02-19T10:55:10Z)
LaND: Learning to Navigate from Disengagements [158.6392333480079]
本研究では,学習者に対する学習支援のための強化学習手法(LaND)を提案する。 LaNDは現在の知覚的観察から、どのアクションが解離につながるかを予測するニューラルネットワークモデルを学び、テスト時計画で解離を回避するアクションを実行する。以上の結果から,LaNDは多種多様な現実世界の歩道環境を学習し,模倣学習と強化学習の両方に優れることを示した。
論文参考訳（メタデータ） (2020-10-09T17:21:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。