論文の概要: A Max-Min Entropy Framework for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.10517v1
- Date: Sat, 19 Jun 2021 15:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:57:01.908177
- Title: A Max-Min Entropy Framework for Reinforcement Learning
- Title(参考訳): 強化学習のための最大最小エントロピーフレームワーク
- Authors: Seungyul Han and Youngchul Sung
- Abstract要約: 最大エントロピーRLフレームワークの限界を克服するために,強化学習のための最大エントロピーフレームワークを提案する。
一般的なマルコフ決定過程(MDPs)では、提案した最大エントロピーの枠組みに基づいて効率的なアルゴリズムが構築される。
数値計算の結果,提案アルゴリズムは現状のRLアルゴリズムよりも劇的な性能向上を達成している。
- 参考スコア(独自算出の注目度): 16.853711292804476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a max-min entropy framework for reinforcement
learning (RL) to overcome the limitation of the maximum entropy RL framework in
model-free sample-based learning. Whereas the maximum entropy RL framework
guides learning for policies to reach states with high entropy in the future,
the proposed max-min entropy framework aims to learn to visit states with low
entropy and maximize the entropy of these low-entropy states to promote
exploration. For general Markov decision processes (MDPs), an efficient
algorithm is constructed under the proposed max-min entropy framework based on
disentanglement of exploration and exploitation. Numerical results show that
the proposed algorithm yields drastic performance improvement over the current
state-of-the-art RL algorithms.
- Abstract(参考訳): 本稿では,モデルフリーサンプルベース学習における最大エントロピーrlフレームワークの限界を克服するために,強化学習(rl)のための最大ミンエントロピーフレームワークを提案する。
最大エントロピーRLフレームワークは、将来、高いエントロピーを持つ状態に到達するための政策を学ぶための学習を導く一方で、提案された最大エントロピーフレームワークは、低いエントロピーを持つ状態を訪れ、これらの低エントロピー状態のエントロピーを最大化し、探索を促進することを目的としている。
一般的なマルコフ決定過程 (MDPs) に対して,探索とエクスプロイトの非絡み合いに基づいて,提案した最大エントロピーの枠組みに基づいて効率的なアルゴリズムを構築した。
数値計算の結果,提案アルゴリズムは現状のRLアルゴリズムよりも劇的な性能向上を達成している。
関連論文リスト
- DIME:Diffusion-Based Maximum Entropy Reinforcement Learning [37.420420953705396]
最大エントロピー強化学習(MaxEnt-RL)は,RLの探索特性から標準的アプローチとなっている。
本稿では,拡散に基づく最大エントロピーRL(DIME)を提案し,その限界エントロピー計算の難しさを克服する。
論文 参考訳(メタデータ) (2025-02-04T13:37:14Z) - Off-Policy Maximum Entropy RL with Future State and Action Visitation Measures [1.75493501156941]
本稿では,政策が訪れた状態と行動の分布に基づく,新たな最大エントロピー強化学習フレームワークを提案する。
それぞれの州と行動について、本質的な報酬は、次のステップで訪れた州と行動の割引された分配の相対的なエントロピーである。
論文 参考訳(メタデータ) (2024-12-09T16:56:06Z) - Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough [40.82741665804367]
そこで本研究では,観測上のエントロピーを最大化するための簡単なアプローチについて検討する。
観測エントロピーの正規化を計算し、原理的性能を向上させるために、後者の知識をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T17:00:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - SHIRO: Soft Hierarchical Reinforcement Learning [0.0]
効率的な探索のためにエントロピーを最大化するオフポリシーHRLアルゴリズムを提案する。
このアルゴリズムは、時間的に抽象化された低レベルポリシーを学習し、高レベルへのエントロピーの追加を通じて広範囲に探索することができる。
提案手法は, ロボット制御ベンチマークタスクのシミュレーションにおいて, 最先端性能を上回っている。
論文 参考訳(メタデータ) (2022-12-24T17:21:58Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。