論文の概要: Off-Policy Maximum Entropy RL with Future State and Action Visitation Measures
- arxiv url: http://arxiv.org/abs/2412.06655v2
- Date: Mon, 08 Sep 2025 17:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.81702
- Title: Off-Policy Maximum Entropy RL with Future State and Action Visitation Measures
- Title(参考訳): オフポリティ最大エントロピーRLの現況と行動訪問対策
- Authors: Adrien Bolland, Gaspard Lambrechts, Damien Ernst,
- Abstract要約: そこで本研究では,本質的な報酬関数が,割引された状態と行動の分布の相対エントロピーである,という新しいアプローチを提案する。
したがって、既存のアルゴリズムは、この固定点のオフポジーを学習し、本質的な報酬を計算するように適応することができる。
結果として得られた政策は、良好な状態対応空間をカバーし、高性能な制御を実現することを示します。
- 参考スコア(独自算出の注目度): 1.3159512679346688
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Maximum entropy reinforcement learning integrates exploration into policy learning by providing additional intrinsic rewards proportional to the entropy of some distribution. In this paper, we propose a novel approach in which the intrinsic reward function is the relative entropy of the discounted distribution of states and actions (or features derived from these states and actions) visited during future time steps. This approach is motivated by three results. First, this new objective is a lower bound on the negated entropy of the marginal visitation distribution of states and actions, commonly used as an alternative exploration objective. Second, a policy maximizing the expected discounted sum of intrinsic rewards also maximizes a lower bound on the state-action value function of the decision process. Third, the distribution used in the intrinsic reward definition is the fixed point of a contraction operator. Existing algorithms can therefore be adapted to learn this fixed point off-policy and compute the intrinsic rewards. We finally introduce an algorithm maximizing our new objective and show that resulting policies have good state-action space coverage and achieve high-performance control.
- Abstract(参考訳): 最大エントロピー強化学習は、ある分布のエントロピーに比例した本質的な報酬を提供することによって、政策学習への探索を統合する。
本稿では,本研究で提案する新たな手法を提案する。本論的な報酬関数は,将来のステップで訪れた状態と行動(あるいはこれらの状態と行動から派生した特徴)の割引分布の相対エントロピーである。
このアプローチは3つの結果によって動機付けられます。
第一に、この新しい目的は、国家と行動の限界訪問分布の否定エントロピーの低い境界であり、通常、代替探索目的として使用される。
第2に、本質的な報酬の期待割引和を最大化するポリシーは、決定プロセスの状態-作用値関数に対する下限を最大化する。
第三に、本質的な報酬の定義で使われる分布は、収縮作用素の固定点である。
したがって、既存のアルゴリズムは、この固定点のオフポジーを学習し、本質的な報酬を計算するように適応することができる。
最終的に、我々の新しい目的を最大化するアルゴリズムを導入し、結果のポリシーが良好な状態対応空間をカバーし、高性能な制御を実現することを示す。
関連論文リスト
- Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough [40.82741665804367]
そこで本研究では,観測上のエントロピーを最大化するための簡単なアプローチについて検討する。
観測エントロピーの正規化を計算し、原理的性能を向上させるために、後者の知識をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T17:00:13Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration [97.19464604735802]
探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T01:09:28Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Do You Need the Entropy Reward (in Practice)? [29.811723497181486]
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
論文 参考訳(メタデータ) (2022-01-28T21:43:21Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State
Entropy Estimate [40.97686031763918]
報酬のない環境では、エージェントが最適なタスクに依存しない探索ポリシーを学習できるように、エージェントが追求すべき本質的な目的は何ですか?
有限水平軌道によって誘導される状態分布のエントロピーは、合理的な対象である。
我々は,非パラメトリックな$k$-nearest隣人の状態分布エントロピー推定を最大化するポリシを学習するために,新しい,実用的なポリシ探索アルゴリズムである最大エントロピー・ポリシー最適化(MEPOL)を提案する。
論文 参考訳(メタデータ) (2020-07-09T08:44:39Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Estimating Q(s,s') with Deep Deterministic Dynamics Gradients [25.200259376015744]
ここでは、値関数の新たな形式である$Q(s, s')$を紹介します。
最適ポリシを導出するために,この値を最大化する次世代予測を学習するフォワードダイナミクスモデルを開発した。
論文 参考訳(メタデータ) (2020-02-21T19:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。