論文の概要: Persistent Rule-based Interactive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.02441v1
- Date: Thu, 4 Feb 2021 06:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:16:13.826053
- Title: Persistent Rule-based Interactive Reinforcement Learning
- Title(参考訳): 永続ルールに基づくインタラクティブ強化学習
- Authors: Adam Bignold and Francisco Cruz and Richard Dazeley and Peter Vamplew
and Cameron Foale
- Abstract要約: 現在の対話型強化学習研究は、現在の状態にのみ関連するアドバイスを提供する相互作用に限られている。
本稿では,ルールに基づく対話型強化学習手法,すなわち,提供された知識の保持と再利用のための手法を提案する。
実験の結果,持続的アドバイスはエージェントの性能を著しく向上させるとともに,トレーナーに必要なインタラクションの数を減らすことができることがわかった。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive reinforcement learning has allowed speeding up the learning
process in autonomous agents by including a human trainer providing extra
information to the agent in real-time. Current interactive reinforcement
learning research has been limited to interactions that offer relevant advice
to the current state only. Additionally, the information provided by each
interaction is not retained and instead discarded by the agent after a
single-use. In this work, we propose a persistent rule-based interactive
reinforcement learning approach, i.e., a method for retaining and reusing
provided knowledge, allowing trainers to give general advice relevant to more
than just the current state. Our experimental results show persistent advice
substantially improves the performance of the agent while reducing the number
of interactions required for the trainer. Moreover, rule-based advice shows
similar performance impact as state-based advice, but with a substantially
reduced interaction count.
- Abstract(参考訳): 対話型強化学習は、エージェントに追加情報を提供する人間トレーナーを含む自律エージェントの学習プロセスをリアルタイムで高速化する。
現在の対話型強化学習研究は、現在の状態にのみ関連するアドバイスを提供する相互作用に限られている。
さらに、各インタラクションが提供する情報は保持されず、単独使用後にエージェントによって破棄される。
本研究では,与えられた知識を保持・再利用する方法として,永続的なルールに基づく対話型強化学習手法を提案する。
私たちの実験結果は、トレーナーに必要なインタラクションの数を減らしながら、エージェントのパフォーマンスを大幅に改善する永続的なアドバイスを示しています。
さらに、ルールベースのアドバイスは、状態ベースのアドバイスと同じようなパフォーマンスへの影響を示すが、インタラクション数は大幅に減少する。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - Broad-persistent Advice for Interactive Reinforcement Learning Scenarios [2.0549239024359762]
本稿では,提供される知識の保持・再利用方法を提案する。
その結果,広義のアドバイスを用いることで,エージェントの性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:46:27Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments [0.3683202928838613]
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
本稿では,BPA(Broad-peristent Advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
論文 参考訳(メタデータ) (2021-10-15T10:56:00Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Human Engagement Providing Evaluative and Informative Advice for
Interactive Reinforcement Learning [2.5799044614524664]
この研究は、評価的または情報的という2つのアプローチのどちらが人間にとって好ましい指導的アプローチであるかを答えることに焦点を当てている。
結果は、ユーザーにより正確なアドバイスを提供し、学習者エージェントを長く支援し、エピソード毎により多くのアドバイスを提供することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:14:02Z) - A Conceptual Framework for Externally-influenced Agents: An Assisted
Reinforcement Learning Review [10.73121872355072]
支援強化学習のための概念的枠組みと分類法を提案する。
提案する分類法は,外部情報ソースと学習者エージェントの関係を詳細に記述する。
エージェントの性能向上のために外部情報を用いた強化学習の現在の流れを同定する。
論文 参考訳(メタデータ) (2020-07-03T08:07:31Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。