論文の概要: How to Explore with Belief: State Entropy Maximization in POMDPs
- arxiv url: http://arxiv.org/abs/2406.02295v1
- Date: Tue, 4 Jun 2024 13:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:20:58.004430
- Title: How to Explore with Belief: State Entropy Maximization in POMDPs
- Title(参考訳): POMDPにおける状態エントロピーの最大化
- Authors: Riccardo Zamboni, Duilio Cirino, Marcello Restelli, Mirco Mutti,
- Abstract要約: 我々は、**状態で定義された目的の1次緩和に対処するために、メモリと効率的な*政治*手法を開発する。
本稿では、アプリケーションの課題を満たすより現実的な領域に状態エントロピーを一般化することを目的とする。
- 参考スコア(独自算出の注目度): 40.82741665804367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have studied *state entropy maximization* in reinforcement learning, in which the agent's objective is to learn a policy inducing high entropy over states visitation (Hazan et al., 2019). They typically assume full observability of the state of the system, so that the entropy of the observations is maximized. In practice, the agent may only get *partial* observations, e.g., a robot perceiving the state of a physical space through proximity sensors and cameras. A significant mismatch between the entropy over observations and true states of the system can arise in those settings. In this paper, we address the problem of entropy maximization over the *true states* with a decision policy conditioned on partial observations *only*. The latter is a generalization of POMDPs, which is intractable in general. We develop a memory and computationally efficient *policy gradient* method to address a first-order relaxation of the objective defined on *belief* states, providing various formal characterizations of approximation gaps, the optimization landscape, and the *hallucination* problem. This paper aims to generalize state entropy maximization to more realistic domains that meet the challenges of applications.
- Abstract(参考訳): 近年の強化学習における*状態エントロピー最大化*は、国家訪問に対する高いエントロピーを誘導する政策を学ぶことを目的としている(Hazan et al , 2019)。
通常は系の状態の完全な可観測性を仮定し、観測のエントロピーを最大化する。
実際にエージェントは、近接センサーやカメラを通して物理的空間の状態を知覚するロボットなど、*partial*の観察しか得られない。
観測上のエントロピーとシステムの真の状態との間の大きなミスマッチは、これらの設定で起こりうる。
本稿では,*true状態に対するエントロピー最大化の問題に,部分的な観測を条件とした決定ポリシー*で対処する。
後者は POMDP の一般化であり、一般には難解である。
そこで我々は,*belief*状態上で定義された目的の1次緩和に対処し,近似ギャップ,最適化ランドスケープ,*hallucination*問題などの形式的特徴を与える,メモリと計算効率の良い*ポリティクス*法を開発した。
本稿では,アプリケーションの課題を満たすより現実的な領域に,状態エントロピーの最大化を一般化することを目的とする。
関連論文リスト
- The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough [40.82741665804367]
そこで本研究では,観測上のエントロピーを最大化するための簡単なアプローチについて検討する。
観測エントロピーの正規化を計算し、原理的性能を向上させるために、後者の知識をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T17:00:13Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate
Minimization [17.845518684835913]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(Predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
平均報酬目標としてエントロピー率を定式化する方法を示し,そのエントロピー報酬関数は政策依存であるため,アクション依存のサロゲートエントロピーを導入する。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z) - Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration [97.19464604735802]
探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T01:09:28Z) - Thermodynamically ideal quantum-state inputs to any device [1.4747234049753448]
エントロピー流, 熱, 作業の期待値は, 初期状態のエルミート観測によって決定できることを実証する。
有限個の有効任意の入力からの熱力学出力の測定からこれらのエルミート作用素を構築する方法を示す。
論文 参考訳(メタデータ) (2023-05-01T01:13:23Z) - Observational entropic study of Anderson localization [0.0]
一次元Aubrey-Andr'eモデルにおける局所化・非局在化遷移の文脈における観測エントロピーの挙動について検討する。
粗粒化では、非局在化相のシステムサイズと対数的に増加し、局所化相の領域法則に従う。
また、観測エントロピーの増加に続き、量子クエンチは非局在化相および遷移点における対数であり、局所化相では発振する。
論文 参考訳(メタデータ) (2022-09-21T11:26:43Z) - IRL with Partial Observations using the Principle of Uncertain Maximum
Entropy [8.296684637620553]
我々は、不確実な最大エントロピーの原理を導入し、期待最大化に基づく解を示す。
我々は,最大因果エントロピー逆強化学習領域において,ノイズデータに対する頑健性の改善を実験的に実証した。
論文 参考訳(メタデータ) (2022-08-15T03:22:46Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Maximum entropy quantum state distributions [58.720142291102135]
我々は、保存された量の完全な分布に関する伝統的な熱力学と条件を超える。
その結果、熱状態からの偏差が広い入力分布の極限でより顕著になる量子状態分布が得られた。
論文 参考訳(メタデータ) (2022-03-23T17:42:34Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。