論文の概要: Predictable Reinforcement Learning Dynamics through Entropy Rate
Minimization
- arxiv url: http://arxiv.org/abs/2311.18703v3
- Date: Mon, 19 Feb 2024 12:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:20:12.393687
- Title: Predictable Reinforcement Learning Dynamics through Entropy Rate
Minimization
- Title(参考訳): エントロピー速度最小化による予測可能強化学習ダイナミクス
- Authors: Daniel Jarne Ornia, Giannis Delimpaltadakis, Jens Kober, Javier
Alonso-Mora
- Abstract要約: 強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(Predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
平均報酬目標としてエントロピー率を定式化する方法を示し,そのエントロピー報酬関数は政策依存であるため,アクション依存のサロゲートエントロピーを導入する。
- 参考スコア(独自算出の注目度): 17.845518684835913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning (RL), agents have no incentive to exhibit
predictable behaviors, and are often pushed (through e.g. policy entropy
regularization) to randomize their actions in favor of exploration. From a
human perspective, this makes RL agents hard to interpret and predict, and from
a safety perspective, even harder to formally verify. We propose a novel method
to induce predictable behavior in RL agents, referred to as
Predictability-Aware RL (PA-RL), which employs the state sequence entropy rate
as a predictability measure. We show how the entropy rate can be formulated as
an average reward objective, and since its entropy reward function is
policy-dependent, we introduce an action-dependent surrogate entropy enabling
the use of policy-gradient methods. We prove that deterministic policies
minimising the average surrogate reward exist and also minimize the actual
entropy rate, and show how, given a learned dynamical model, we are able to
approximate the value function associated to the true entropy rate. Finally, we
demonstrate the effectiveness of the approach in RL tasks inspired by
human-robot use-cases, and show how it produces agents with more predictable
behavior while achieving near-optimal rewards.
- Abstract(参考訳): 強化学習(rl)では、エージェントは予測可能な行動を示すインセンティブを持たず、しばしば(ポリシーエントロピー正規化などを通じて)探索に有利な行動をランダム化する。
人間の視点では、RLエージェントの解釈と予測が難しくなり、安全性の観点からは、正式な検証がさらに難しくなります。
本稿では,予測可能性指標として状態列エントロピー率を用いる予測可能性認識RL (Predictability-Aware RL) と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
平均報酬目標としてエントロピー率を定式化する方法を示し,エントロピー報酬関数は政策依存であるため,政策段階の手法を活用できる行動依存の代理エントロピーを導入する。
平均代理報酬を最小化する決定論的ポリシーの存在を証明し、実際のエントロピー率を最小化するとともに、学習力学モデルが与えられた場合、真のエントロピー率に付随する値関数を近似できることを示す。
最後に、人間-ロボットのユースケースに触発されたrlタスクにおけるアプローチの有効性を実証し、最適に近い報酬を得ながら、より予測可能な振る舞いを持つエージェントを生成する方法を示す。
関連論文リスト
- Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems [1.8749305679160366]
スコア・アウェア・グラデーションMD(SAGE)と呼ばれるMDPの勾配の新たなファミリーを導入する。
決定の定常分布が指数族に属する場合、SAGEは値-関数推定なしで政策勾配を推定できる。
適切な仮定の下では、適切なポリシーに十分近づき始めた場合に、ポリシー段階の手法が最適なポリシーに大きく収束していることが示される。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Do You Need the Entropy Reward (in Practice)? [29.811723497181486]
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
論文 参考訳(メタデータ) (2022-01-28T21:43:21Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。