論文の概要: Decision Making for Human-in-the-loop Robotic Agents via
Uncertainty-Aware Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.06710v2
- Date: Tue, 14 Mar 2023 16:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 11:19:39.773210
- Title: Decision Making for Human-in-the-loop Robotic Agents via
Uncertainty-Aware Reinforcement Learning
- Title(参考訳): 不確実性を考慮した強化学習によるロボットエージェントの意思決定
- Authors: Siddharth Singi, Zhanpeng He, Alvin Pan, Sandip Patel, Gunnar A.
Sigurdsson, Robinson Piramuthu, Shuran Song, Matei Ciocarlie
- Abstract要約: ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。
本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントが,タスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。
本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家コールの予算を効果的に活用できることを示す。
- 参考スコア(独自算出の注目度): 13.184897303302971
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In a Human-in-the-Loop paradigm, a robotic agent is able to act mostly
autonomously in solving a task, but can request help from an external expert
when needed. However, knowing when to request such assistance is critical: too
few requests can lead to the robot making mistakes, but too many requests can
overload the expert. In this paper, we present a Reinforcement Learning based
approach to this problem, where a semi-autonomous agent asks for external
assistance when it has low confidence in the eventual success of the task. The
confidence level is computed by estimating the variance of the return from the
current state. We show that this estimate can be iteratively improved during
training using a Bellman-like recursion. On discrete navigation problems with
both fully- and partially-observable state information, we show that our method
makes effective use of a limited budget of expert calls at run-time, despite
having no access to the expert at training time.
- Abstract(参考訳): ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。
要求が多すぎるとロボットがミスを犯しかねないが、要求が多すぎると専門家が過負荷になる。
本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントがタスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。
信頼度は、現在の状態からのリターンのばらつきを推定することによって算出される。
この推定は,ベルマン型再帰法を用いて,訓練中に反復的に改善できることを示す。
完全かつ部分的に観測可能な状態情報を含む個別のナビゲーション問題に対して,本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家の呼び出しを効果的に利用することを示す。
関連論文リスト
- Getting By Goal Misgeneralization With a Little Help From a Mentor [5.012314384895538]
本稿では, エージェントが不慣れな状況下で上司に助けを求めることが, この問題を軽減できるかどうかを考察する。
我々は,CoinRun環境においてPPOで訓練されたエージェントに焦点を当てた。
エージェントの内部状態に基づくメソッドは、積極的にヘルプを要求せず、ミスが既に発生するまで待つことに気付きました。
論文 参考訳(メタデータ) (2024-10-28T14:07:41Z) - Automatic Evaluation of Excavator Operators using Learned Reward
Functions [5.372817906484557]
本稿では,掘削作業者の自動評価のための新しい手法を提案する。
掘削機の内部力学と安全基準を各ステップで考慮し,性能評価を行う。
これらの外部報酬予測モデルを用いて学習したポリシーについて,より安全な解が得られた。
論文 参考訳(メタデータ) (2022-11-15T06:58:00Z) - When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning [57.53138994155612]
強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:24Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - AvE: Assistance via Empowerment [77.08882807208461]
そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
論文 参考訳(メタデータ) (2020-06-26T04:40:11Z) - Should artificial agents ask for help in human-robot collaborative
problem-solving? [0.7251305766151019]
本稿では,人間とロボットの相互作用に関する実証実験から得られた仮説から始めることを提案する。
簡単なクローズドタスクを解くと、専門家から助けを受けることが、このタスクの学習を加速させるかどうかを確認する。
私たちの経験から、Q-ラーニングのアルゴリズムは、Q-ラーニングのアルゴリズムが、子供と同じように専門家の助けから恩恵を受けていると結論付けることができました。
論文 参考訳(メタデータ) (2020-05-25T09:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。