論文の概要: A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments
- arxiv url: http://arxiv.org/abs/2110.08003v1
- Date: Fri, 15 Oct 2021 10:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 21:12:50.319099
- Title: A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments
- Title(参考訳): ロボット環境における深い対話型強化学習のための広汎性助言手法
- Authors: Hung Son Nguyen, Francisco Cruz, Richard Dazeley
- Abstract要約: Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
本稿では,BPA(Broad-peristent Advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DeepRL) methods have been widely used in
robotics to learn about the environment and acquire behaviors autonomously.
Deep Interactive Reinforcement Learning (DeepIRL) includes interactive feedback
from an external trainer or expert giving advice to help learners choosing
actions to speed up the learning process. However, current research has been
limited to interactions that offer actionable advice to only the current state
of the agent. Additionally, the information is discarded by the agent after a
single use that causes a duplicate process at the same state for a revisit. In
this paper, we present Broad-persistent Advising (BPA), a broad-persistent
advising approach that retains and reuses the processed information. It not
only helps trainers to give more general advice relevant to similar states
instead of only the current state but also allows the agent to speed up the
learning process. We test the proposed approach in two continuous robotic
scenarios, namely, a cart pole balancing task and a simulated robot navigation
task. The obtained results show that the performance of the agent using BPA
improves while keeping the number of interactions required for the trainer in
comparison to the DeepIRL approach.
- Abstract(参考訳): 深層強化学習(deeprl)法は、ロボット工学において環境について学び、自律的に行動を取得するために広く使われている。
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
しかし、現在の研究は、エージェントの現在の状態にのみ実行可能なアドバイスを提供する相互作用に限られている。
さらに、この情報は、再訪のために同じ状態の重複プロセスを引き起こす単一の使用後にエージェントによって破棄される。
本稿では,処理情報を保存・再利用するbpa(broad-persistent advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
提案手法は,カートポールバランスタスクとシミュレーションロボットナビゲーションタスクという2つの連続ロボットシナリオでテストした。
以上の結果から,BPAを用いたエージェントの性能は,DeepIRLアプローチと比較してトレーナーに必要なインタラクション数を維持しながら向上することが示された。
関連論文リスト
- Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Broad-persistent Advice for Interactive Reinforcement Learning Scenarios [2.0549239024359762]
本稿では,提供される知識の保持・再利用方法を提案する。
その結果,広義のアドバイスを用いることで,エージェントの性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:46:27Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Persistent Rule-based Interactive Reinforcement Learning [0.5999777817331317]
現在の対話型強化学習研究は、現在の状態にのみ関連するアドバイスを提供する相互作用に限られている。
本稿では,ルールに基づく対話型強化学習手法,すなわち,提供された知識の保持と再利用のための手法を提案する。
実験の結果,持続的アドバイスはエージェントの性能を著しく向上させるとともに,トレーナーに必要なインタラクションの数を減らすことができることがわかった。
論文 参考訳(メタデータ) (2021-02-04T06:48:57Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。