論文の概要: Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization
- arxiv url: http://arxiv.org/abs/2311.18703v4
- Date: Sun, 02 Feb 2025 19:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:06:00.151896
- Title: Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization
- Title(参考訳): エントロピー速度最小化による予測可能強化学習ダイナミクス
- Authors: Daniel Jarne Ornia, Giannis Delimpaltadakis, Jens Kober, Javier Alonso-Mora,
- Abstract要約: 強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
提案手法は,標準割引報酬と負のエントロピー率の線形結合を最大化することにより,最適性を予測可能性と引き換えに行う。
- 参考スコア(独自算出の注目度): 16.335645061396455
- License:
- Abstract: In Reinforcement Learning (RL), agents have no incentive to exhibit predictable behaviors, and are often pushed (through e.g. policy entropy regularisation) to randomise their actions in favor of exploration. This often makes it challenging for other agents and humans to predict an agent's behavior, triggering unsafe scenarios (e.g. in human-robot interaction). We propose a novel method to induce predictable behavior in RL agents, termed Predictability-Aware RL (PARL), employing the agent's trajectory entropy rate to quantify predictability. Our method maximizes a linear combination of a standard discounted reward and the negative entropy rate, thus trading off optimality with predictability. We show how the entropy rate can be formally cast as an average reward, how entropy-rate value functions can be estimated from a learned model and incorporate this in policy-gradient algorithms, and demonstrate how this approach produces predictable (near-optimal) policies in tasks inspired by human-robot use-cases.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)では、エージェントは予測可能な行動を示すインセンティブを持たず、しばしば(gポリシーのエントロピー規則化を通じて)探索に賛成して行動のランダム化を迫られる。
これはしばしば、他のエージェントや人間がエージェントの振る舞いを予測することを困難にし、安全でないシナリオ(例えば人間とロボットの相互作用)を引き起こす。
本稿では,予測可能性の定量化のために,エージェントの軌道エントロピー速度を用いた予測可能性認識RL(PARL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
提案手法は,標準割引報酬と負のエントロピー率の線形結合を最大化することにより,最適性を予測可能性と引き換えに行う。
本稿では, エントロピー率を平均報酬として形式的に設定する方法, 学習モデルからエントロピーレート値関数を推定し, これを政策段階のアルゴリズムに組み込む方法, そして, ロボットのユースケースにインスパイアされたタスクにおいて, このアプローチが予測可能な(最適に近い)ポリシーをいかに生み出すかを示す。
関連論文リスト
- MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Predicting AI Agent Behavior through Approximation of the Perron-Frobenius Operator [4.076790923976287]
我々は,AIエージェントを非線形力学系として扱い,確率論的観点からその統計的挙動を予測する。
エントロピー最小化問題としてペロン・フロベニウス作用素(PF)の近似を定式化する。
我々のデータ駆動手法は、エージェントの進化を予測するためにPF演算子を同時に近似し、AIエージェントの終端確率密度を予測する。
論文 参考訳(メタデータ) (2024-06-04T19:06:49Z) - Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning [6.937243101289336]
教師なし強化学習(RL)のエントロピー最小化とエントロピー最大化は異なる環境において有効であることが示されている。
マルチアームバンディット問題としての選択をフレーミングすることで、エントロピー条件に応じて、その目的をオンラインで適応できるエージェントを提案する。
我々は,このようなエージェントがエントロピーを制御し,高エントロピーと低エントロピーの両体制において創発的な行動を示すことを実証した。
論文 参考訳(メタデータ) (2024-05-27T14:58:24Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。