論文の概要: Action Redundancy in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.11329v1
- Date: Mon, 22 Feb 2021 19:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:09:18.932851
- Title: Action Redundancy in Reinforcement Learning
- Title(参考訳): 強化学習における行動冗長性
- Authors: Nir Baram, Guy Tennenholtz, Shie Mannor
- Abstract要約: 遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
- 参考スコア(独自算出の注目度): 54.291331971813364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum Entropy (MaxEnt) reinforcement learning is a powerful learning
paradigm which seeks to maximize return under entropy regularization. However,
action entropy does not necessarily coincide with state entropy, e.g., when
multiple actions produce the same transition. Instead, we propose to maximize
the transition entropy, i.e., the entropy of next states. We show that
transition entropy can be described by two terms; namely, model-dependent
transition entropy and action redundancy. Particularly, we explore the latter
in both deterministic and stochastic settings and develop tractable
approximation methods in a near model-free setup. We construct algorithms to
minimize action redundancy and demonstrate their effectiveness on a synthetic
environment with multiple redundant actions as well as contemporary benchmarks
in Atari and Mujoco. Our results suggest that action redundancy is a
fundamental problem in reinforcement learning.
- Abstract(参考訳): 最大エントロピー(MaxEnt)強化学習は、エントロピー正規化の下でのリターンを最大化しようとする強力な学習パラダイムです。
しかしながら、アクションエントロピーは必ずしも状態エントロピーと一致するとは限らない。例えば、複数のアクションが同じ遷移を引き起こす場合である。
代わりに、遷移エントロピー、すなわち次の状態のエントロピーを最大化することを提案する。
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
特に、決定論的および確率的設定で後者を探索し、ほぼモデルのない設定で抽出可能な近似法を開発する。
動作冗長性を最小化するアルゴリズムを構築し,複数の冗長な動作を伴う合成環境での有効性を示すとともに,atari や mujoco のコンテンポラリーベンチマークも構築する。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
関連論文リスト
- Stabilizer entropy in non-integrable quantum evolutions [0.3277163122167434]
エンタングルメントとスタビライザーエントロピーは、量子多体系における複雑な振る舞いの開始に関与している。
本研究では, エンタングルメント, スタビライザーエントロピー, およびそれらの相互作用を評価する新しい量について検討した。
論文 参考訳(メタデータ) (2024-12-13T16:00:00Z) - The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough [40.82741665804367]
そこで本研究では,観測上のエントロピーを最大化するための簡単なアプローチについて検討する。
観測エントロピーの正規化を計算し、原理的性能を向上させるために、後者の知識をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T17:00:13Z) - Entropy Production from Maximum Entropy Principle: a Unifying Approach [0.0]
エントロピー生成は、不可逆現象と熱力学の第2法則を特徴づける重要な量である。
私たちはJaynesの最大エントロピー原理を使って、際立った、明らかに矛盾する定義をまとめるフレームワークを構築します。
論文 参考訳(メタデータ) (2024-01-18T12:32:45Z) - A general Markov decision process formalism for action-state
entropy-regularized reward maximization [0.0]
これまでの研究は、さまざまな形態の行動、状態、行動状態のエントロピー正規化、純粋な探査、宇宙占領に対処してきた。
これらの問題は正規化、一般化、学習に極めて関係している。
論文 参考訳(メタデータ) (2023-02-02T13:40:12Z) - Quantum R\'enyi entropy by optimal thermodynamic integration paths [0.0]
ここでは、R'enyiエントロピーを効率的に評価できる最適熱力学積分法に基づく理論的枠組みを紹介する。
本研究では, 1次元量子イジングモデルでこれを実証し, ホルミ酸二量体におけるエンタングルメントエントロピーの評価を行う。
論文 参考訳(メタデータ) (2021-12-28T15:59:15Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z) - Open-system approach to nonequilibrium quantum thermodynamics at
arbitrary coupling [77.34726150561087]
熱浴に結合したオープン量子系の熱力学挙動を記述する一般的な理論を開発する。
我々のアプローチは、縮小された開系状態に対する正確な時間局所量子マスター方程式に基づいている。
論文 参考訳(メタデータ) (2021-09-24T11:19:22Z) - Maximum Entropy Reinforcement Learning with Mixture Policies [54.291331971813364]
MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。
我々は、それが限界エントロピーの合計と密接に関連していることを示しています。
我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-03-18T11:23:39Z) - Catalytic Transformations of Pure Entangled States [62.997667081978825]
エンタングルメントエントロピー(英: entanglement entropy)は、純粋状態の量子エンタングルメントのフォン・ノイマンエントロピーである。
エンタングルメント・エントロピーとエンタングルメント・蒸留との関係は設定のためだけに知られており、シングルコピー体制におけるエンタングルメント・エントロピーの意味はいまだオープンである。
この結果から, 量子情報処理に使用する二部質純状態における絡み合いの量は, 絡み合いエントロピーによって定量化され, かつ, 絡み合いの単一コピー構成においても, 運用上の意味を持つことが明らかとなった。
論文 参考訳(メタデータ) (2021-02-22T16:05:01Z) - Entropy production in the quantum walk [62.997667081978825]
我々は、エントロピー生産の観点から、直線上の離散時間量子ウォークの研究に焦点をあてる。
コインの進化は、ある有効温度で格子とエネルギーを交換するオープンな2段階のシステムとしてモデル化できると論じる。
論文 参考訳(メタデータ) (2020-04-09T23:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。