論文の概要: A Max-Min Entropy Framework for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.10517v1
- Date: Sat, 19 Jun 2021 15:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:57:01.908177
- Title: A Max-Min Entropy Framework for Reinforcement Learning
- Title(参考訳): 強化学習のための最大最小エントロピーフレームワーク
- Authors: Seungyul Han and Youngchul Sung
- Abstract要約: 最大エントロピーRLフレームワークの限界を克服するために,強化学習のための最大エントロピーフレームワークを提案する。
一般的なマルコフ決定過程(MDPs)では、提案した最大エントロピーの枠組みに基づいて効率的なアルゴリズムが構築される。
数値計算の結果,提案アルゴリズムは現状のRLアルゴリズムよりも劇的な性能向上を達成している。
- 参考スコア(独自算出の注目度): 16.853711292804476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a max-min entropy framework for reinforcement
learning (RL) to overcome the limitation of the maximum entropy RL framework in
model-free sample-based learning. Whereas the maximum entropy RL framework
guides learning for policies to reach states with high entropy in the future,
the proposed max-min entropy framework aims to learn to visit states with low
entropy and maximize the entropy of these low-entropy states to promote
exploration. For general Markov decision processes (MDPs), an efficient
algorithm is constructed under the proposed max-min entropy framework based on
disentanglement of exploration and exploitation. Numerical results show that
the proposed algorithm yields drastic performance improvement over the current
state-of-the-art RL algorithms.
- Abstract(参考訳): 本稿では,モデルフリーサンプルベース学習における最大エントロピーrlフレームワークの限界を克服するために,強化学習(rl)のための最大ミンエントロピーフレームワークを提案する。
最大エントロピーRLフレームワークは、将来、高いエントロピーを持つ状態に到達するための政策を学ぶための学習を導く一方で、提案された最大エントロピーフレームワークは、低いエントロピーを持つ状態を訪れ、これらの低エントロピー状態のエントロピーを最大化し、探索を促進することを目的としている。
一般的なマルコフ決定過程 (MDPs) に対して,探索とエクスプロイトの非絡み合いに基づいて,提案した最大エントロピーの枠組みに基づいて効率的なアルゴリズムを構築した。
数値計算の結果,提案アルゴリズムは現状のRLアルゴリズムよりも劇的な性能向上を達成している。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Maximum Causal Entropy Inverse Reinforcement Learning for Mean-Field
Games [3.2228025627337864]
離散時間平均場ゲーム(MFG)におけるカジュアルエントロピー逆強化(IRL)問題について,無限水平ディスカウント・リワード最適性基準の下で紹介する。
本稿では,MFG問題を平均場平衡問題を計算可能な一般化ナッシュ平衡問題(GN)として定式化する。
この方法は、数値的な例のためのデータを生成するために用いられる。
論文 参考訳(メタデータ) (2024-01-12T13:22:03Z) - SHIRO: Soft Hierarchical Reinforcement Learning [0.0]
効率的な探索のためにエントロピーを最大化するオフポリシーHRLアルゴリズムを提案する。
このアルゴリズムは、時間的に抽象化された低レベルポリシーを学習し、高レベルへのエントロピーの追加を通じて広範囲に探索することができる。
提案手法は, ロボット制御ベンチマークタスクのシミュレーションにおいて, 最先端性能を上回っている。
論文 参考訳(メタデータ) (2022-12-24T17:21:58Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Revisiting Maximum Entropy Inverse Reinforcement Learning: New
Perspectives and Algorithms [5.1779694507922835]
与えられた専門家のデモンストレーションと一致した最も非コミット報酬関数を求めるための原理的手法を提案する。
我々のアルゴリズムは、ドライバーの行動予測を含む大規模な実世界のデータセットまでスケールする。
論文 参考訳(メタデータ) (2020-12-01T23:28:31Z) - Generalized Maximum Entropy for Supervised Classification [26.53901315716557]
最大エントロピー原理は、エントロピーを最大化する分布を用いて事象の確率を評価することを提唱している。
本稿では,一般化最大エントロピー原理に基づく教師付き分類の枠組みを確立する。
論文 参考訳(メタデータ) (2020-07-10T15:41:17Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。