論文の概要: Bandit-Based Policy Invariant Explicit Shaping for Incorporating
External Advice in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.07163v3
- Date: Mon, 18 Sep 2023 11:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:08:16.791877
- Title: Bandit-Based Policy Invariant Explicit Shaping for Incorporating
External Advice in Reinforcement Learning
- Title(参考訳): 強化学習における外部アドバイスを取り入れたbandit-based policy invariant explicit shaping
- Authors: Yash Satsangi, Paniz Behboudian
- Abstract要約: 強化学習(RL)エージェントの重要な課題は、外部/専門家1のアドバイスを学習に取り入れることである。
本稿では,RLの外部アドバイスを整形バンドイット(shaping-bandit)と呼ばれるマルチアームバンドイットとして組み込むことの問題点を定式化する。
提案手法は,提案手法の非定常特性を考慮しない既存の帯域幅と整形アルゴリズムを直接適用することにより,結果の低下につながることを示す。
- 参考スコア(独自算出の注目度): 0.40792653193642503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge for a reinforcement learning (RL) agent is to incorporate
external/expert1 advice in its learning. The desired goals of an algorithm that
can shape the learning of an RL agent with external advice include (a)
maintaining policy invariance; (b) accelerating the learning of the agent; and
(c) learning from arbitrary advice [3]. To address this challenge this paper
formulates the problem of incorporating external advice in RL as a multi-armed
bandit called shaping-bandits. The reward of each arm of shaping bandits
corresponds to the return obtained by following the expert or by following a
default RL algorithm learning on the true environment reward.We show that
directly applying existing bandit and shaping algorithms that do not reason
about the non-stationary nature of the underlying returns can lead to poor
results. Thus we propose UCB-PIES (UPIES), Racing-PIES (RPIES), and Lazy PIES
(LPIES) three different shaping algorithms built on different assumptions that
reason about the long-term consequences of following the expert policy or the
default RL algorithm. Our experiments in four different settings show that
these proposed algorithms achieve the above-mentioned goals whereas the other
algorithms fail to do so.
- Abstract(参考訳): 強化学習(RL)エージェントの重要な課題は、外部/専門家1のアドバイスを学習に取り入れることである。
外部アドバイスでRLエージェントの学習を形作るアルゴリズムの望ましいゴールは、以下である。
a) 政策の不変性を維持すること
b) エージェントの学習を加速すること,及び
(c)任意のアドバイスから学ぶ[3]。
この課題に対処するために, シェーピングバンドイットと呼ばれるマルチアームバンドイットとして, 外部アドバイスをRLに組み込むという問題を定式化する。
実環境報酬に基づいて学習した既定のrlアルゴリズムに従えば,各腕の報酬は,実環境報酬に従えば得られるリターンに相当し,基礎となるリターンの非定常性を理由としない既存のバンディットおよびシェーピングアルゴリズムを直接適用することは,結果に悪影響を与える可能性がある。
そこで本研究では,UCB-PIES (UPIES), Racing-PIES (RPIES), Lazy PIES (LPIES) の3つの異なる形状のアルゴリズムを提案する。
4つの異なる設定で実験した結果,これらのアルゴリズムは上記の目標を達成できたが,他のアルゴリズムでは達成できなかった。
関連論文リスト
- Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - A Subgame Perfect Equilibrium Reinforcement Learning Approach to
Time-inconsistent Problems [4.314956204483074]
我々は,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習フレームワークを構築した。
我々は,SPERLを解き,両課題に対処する,BPI(backward Policy iteration)と呼ばれるアルゴリズムの新たなクラスを提案する。
トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-10-27T09:21:35Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。