論文の概要: ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive
Imitation Learning
- arxiv url: http://arxiv.org/abs/2109.08273v1
- Date: Fri, 17 Sep 2021 01:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:34:32.961092
- Title: ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive
Imitation Learning
- Title(参考訳): ThriftyDAgger: インタラクティブな模倣学習のためのノベルティとリスクゲーティング
- Authors: Ryan Hoque, Ashwin Balakrishna, Ellen Novoseller, Albert Wilcox,
Daniel S. Brown, Ken Goldberg
- Abstract要約: ThriftyDAgger(スリフティダガー)は、人間の介入の予算が与えられたら、人間の上司に問い合わせるアルゴリズムである。
実験により、ThriftyDAggerの介入基準はタスクのパフォーマンスとオーバヘッドを以前のアルゴリズムよりも効果的にバランスしていることが示唆された。
- 参考スコア(独自算出の注目度): 23.177329496817105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective robot learning often requires online human feedback and
interventions that can cost significant human time, giving rise to the central
challenge in interactive imitation learning: is it possible to control the
timing and length of interventions to both facilitate learning and limit burden
on the human supervisor? This paper presents ThriftyDAgger, an algorithm for
actively querying a human supervisor given a desired budget of human
interventions. ThriftyDAgger uses a learned switching policy to solicit
interventions only at states that are sufficiently (1) novel, where the robot
policy has no reference behavior to imitate, or (2) risky, where the robot has
low confidence in task completion. To detect the latter, we introduce a novel
metric for estimating risk under the current robot policy. Experiments in
simulation and on a physical cable routing experiment suggest that
ThriftyDAgger's intervention criteria balances task performance and supervisor
burden more effectively than prior algorithms. ThriftyDAgger can also be
applied at execution time, where it achieves a 100% success rate on both the
simulation and physical tasks. A user study (N=10) in which users control a
three-robot fleet while also performing a concentration task suggests that
ThriftyDAgger increases human and robot performance by 58% and 80% respectively
compared to the next best algorithm while reducing supervisor burden.
- Abstract(参考訳): 効果的なロボット学習は、しばしばオンラインの人間からのフィードバックと介入を必要とする。これは、対話的な模倣学習における中心的な課題を生じさせる: 人間の監督者に対する学習の促進と負担の制限の両方に、介入のタイミングと長さを制御することは可能か?
本稿では,人的介入を希望する予算を与えられた人的監督者に対して積極的に問合せを行うアルゴリズムであるthriftydaggerを提案する。
ThriftyDAgger は,(1) ロボットが模倣する参照行動を持たない,あるいは(2) ロボットがタスク完了に対する信頼度が低い,新規な状態においてのみ介入を要請するために,学習されたスイッチングポリシを使用する。
後者を検出するために,現状のロボット政策の下でリスクを推定する新しい指標を提案する。
シミュレーション実験と物理的ケーブルルーティング実験により,ThriftyDAggerの介入基準は,従来のアルゴリズムよりも効率よくタスク性能とオーバヘッド負荷のバランスをとることが示唆された。
ThriftyDAggerは実行時にも適用でき、シミュレーションと物理タスクの両方で100%の成功率を達成することができる。
また,ThriftyDAggerは,3ロボット群を制御しながら集中作業を行うユーザスタディ (N=10) により,次の最良アルゴリズムと比較して,人間とロボットのパフォーマンスを58%,ロボットを80%向上させ,オーバヘッド負担を軽減した。
関連論文リスト
- Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z) - Learning Action Duration and Synergy in Task Planning for Human-Robot
Collaboration [6.373435464104705]
アクションの持続時間は、エージェントの能力と、人間とロボットが同時に行うアクションの相関に依存する。
本稿では,人間とロボットが同時に実行する動作のコストと結合性を学習するためのアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-21T01:08:11Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - LazyDAgger: Reducing Context Switching in Interactive Imitation Learning [23.246687273191412]
今回紹介するLazyDAggerは、対話型模倣学習(IL)アルゴリズムSafeDAggerを拡張し、スーパーバイザと自律制御の間のコンテキストスイッチを低減する。
LazyDAggerは、学習と実行の両方で学習ポリシーのパフォーマンスと堅牢性を向上させます。
論文 参考訳(メタデータ) (2021-03-31T18:22:53Z) - Show Me What You Can Do: Capability Calibration on Reachable Workspace
for Human-Robot Collaboration [83.4081612443128]
本稿では,REMPを用いた短時間キャリブレーションにより,ロボットが到達できると考える非専門家と地道とのギャップを効果的に埋めることができることを示す。
この校正手順は,ユーザ認識の向上だけでなく,人間とロボットのコラボレーションの効率化にも寄与することを示す。
論文 参考訳(メタデータ) (2021-03-06T09:14:30Z) - Human-Robot Team Coordination with Dynamic and Latent Human Task
Proficiencies: Scheduling with Learning Curves [0.0]
ロボットが人間のチームメイトの相対的な強みと学習能力を探索できる新しい資源調整手法を提案する。
我々は、最新の個人労働者の熟練度を発見しながら、頑健なスケジュールを作成し、評価する。
その結果,人間とロボットのコラボレーションには,探索に有利なスケジューリング戦略が有用であることが示唆された。
論文 参考訳(メタデータ) (2020-07-03T19:44:22Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。