論文の概要: When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.10765v1
- Date: Wed, 19 Oct 2022 17:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 15:02:54.974832
- Title: When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning
- Title(参考訳): 支援を求めるとき:自律強化学習における積極的な介入
- Authors: Annie Xie, Fahim Tajwar, Archit Sharma, Chelsea Finn
- Abstract要約: 強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 57.53138994155612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-term goal of reinforcement learning is to design agents that can
autonomously interact and learn in the world. A critical challenge to such
autonomy is the presence of irreversible states which require external
assistance to recover from, such as when a robot arm has pushed an object off
of a table. While standard agents require constant monitoring to decide when to
intervene, we aim to design proactive agents that can request human
intervention only when needed. To this end, we propose an algorithm that
efficiently learns to detect and avoid states that are irreversible, and
proactively asks for help in case the agent does enter them. On a suite of
continuous control environments with unknown irreversible states, we find that
our algorithm exhibits better sample- and intervention-efficiency compared to
existing methods. Our code is publicly available at
https://sites.google.com/view/proactive-interventions
- Abstract(参考訳): 強化学習の長期的な目標は、世界で自律的に相互作用し学習できるエージェントを設計することである。
このような自律性に対する重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆的な状態の存在である。
標準エージェントはいつ介入するかを常に監視する必要があるが、必要な時にのみ人間の介入を要求できる積極的なエージェントを設計することを目指している。
そこで本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
未知の可逆状態を持つ一連の連続制御環境において,本アルゴリズムは既存手法と比較してサンプリング効率と介入効率がよいことを示す。
私たちのコードはhttps://sites.google.com/view/proactive-interventionsで公開されています。
関連論文リスト
- Get the Ball Rolling: Alerting Autonomous Robots When to Help to Close
the Healthcare Loop [25.551355056830413]
我々は、クラウドソーシングの大規模データセットとともに、Autonomous Helping Challengeを紹介します。
目標は、いつ援助が必要なのかを判断する能力を持つヘルスケアロボットを作ることだ。
我々は、学習自由環境におけるヘルスケアループを閉鎖する潜在的アプローチであるHelpyを提案する。
論文 参考訳(メタデータ) (2023-11-05T08:57:59Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Decision Making for Human-in-the-loop Robotic Agents via
Uncertainty-Aware Reinforcement Learning [13.184897303302971]
ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。
本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントが,タスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。
本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家コールの予算を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2023-03-12T17:22:54Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - AvE: Assistance via Empowerment [77.08882807208461]
そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
論文 参考訳(メタデータ) (2020-06-26T04:40:11Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Should artificial agents ask for help in human-robot collaborative
problem-solving? [0.7251305766151019]
本稿では,人間とロボットの相互作用に関する実証実験から得られた仮説から始めることを提案する。
簡単なクローズドタスクを解くと、専門家から助けを受けることが、このタスクの学習を加速させるかどうかを確認する。
私たちの経験から、Q-ラーニングのアルゴリズムは、Q-ラーニングのアルゴリズムが、子供と同じように専門家の助けから恩恵を受けていると結論付けることができました。
論文 参考訳(メタデータ) (2020-05-25T09:15:30Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。