Fugu-MT 論文翻訳(概要): The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough

論文の概要: The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough

arxiv url: http://arxiv.org/abs/2406.12795v1
Date: Tue, 18 Jun 2024 17:00:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 17:59:05.000669
Title: The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough
Title（参考訳）: POMDPにおける純粋探査の限界--観測エントロピーが十分である場合-
Authors: Riccardo Zamboni, Duilio Cirino, Marcello Restelli, Mirco Mutti,
Abstract要約: そこで本研究では,観測上のエントロピーを最大化するための簡単なアプローチについて検討する。観測エントロピーの正規化を計算し、原理的性能を向上させるために、後者の知識をどのように活用できるかを示す。
参考スコア（独自算出の注目度）: 40.82741665804367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The problem of pure exploration in Markov decision processes has been cast as maximizing the entropy over the state distribution induced by the agent's policy, an objective that has been extensively studied. However, little attention has been dedicated to state entropy maximization under partial observability, despite the latter being ubiquitous in applications, e.g., finance and robotics, in which the agent only receives noisy observations of the true state governing the system's dynamics. How can we address state entropy maximization in those domains? In this paper, we study the simple approach of maximizing the entropy over observations in place of true latent states. First, we provide lower and upper bounds to the approximation of the true state entropy that only depends on some properties of the observation function. Then, we show how knowledge of the latter can be exploited to compute a principled regularization of the observation entropy to improve performance. With this work, we provide both a flexible approach to bring advances in state entropy maximization to the POMDP setting and a theoretical characterization of its intrinsic limits.
Abstract（参考訳）: マルコフ決定過程における純粋探索の問題は、エージェントの政策によって引き起こされる状態分布に対するエントロピーを最大化するものとして、広く研究されている。しかしながら、部分的に可観測性の下での状態エントロピーの最大化にはほとんど注意が向けられていないが、後者は例えば金融やロボティクスなどの応用においてユビキタスであり、エージェントはシステムのダイナミクスを管理する真の状態のノイズしか受け取らない。これらの領域における状態エントロピーの最大化にどう対処すればよいか? 本稿では,真の潜伏状態の代わりに観測よりもエントロピーを最大化するための簡単なアプローチについて検討する。まず、観測関数のいくつかの性質にのみ依存する真の状態エントロピーの近似に対する下界と上界を与える。次に,後者の知識を用いて観測エントロピーの原理的正規化を計算し,性能を向上させる方法を示す。本研究は,POMDP設定に状態エントロピー最大化の進歩をもたらすフレキシブルなアプローチと,本質的な限界の理論的特徴を提供する。

関連論文リスト

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。 Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2025-05-28T17:38:45Z)
How to Explore with Belief: State Entropy Maximization in POMDPs [40.82741665804367]
我々は、**状態で定義された目的の1次緩和に対処するために、メモリと効率的な*政治*手法を開発する。本稿では、アプリケーションの課題を満たすより現実的な領域に状態エントロピーを一般化することを目的とする。
論文参考訳（メタデータ） (2024-06-04T13:16:34Z)
Heat and Work in Quantum Thermodynamics: a Cybernetic Approach [0.0]
制御理論による可観測性分解に基づく仕事と熱を区別する新しい提案を提案する。観測可能エネルギーの即時散逸を表すエルミート作用素を導出し、フォン・ノイマンエントロピーの一般化を提案する。
論文参考訳（メタデータ） (2024-03-04T13:26:48Z)
Observational entropic study of Anderson localization [0.0]
一次元Aubrey-Andr'eモデルにおける局所化・非局在化遷移の文脈における観測エントロピーの挙動について検討する。粗粒化では、非局在化相のシステムサイズと対数的に増加し、局所化相の領域法則に従う。また、観測エントロピーの増加に続き、量子クエンチは非局在化相および遷移点における対数であり、局所化相では発振する。
論文参考訳（メタデータ） (2022-09-21T11:26:43Z)
Observational entropy, coarse quantum states, and Petz recovery: information-theoretic properties and bounds [1.7205106391379026]
観測エントロピーの数学的性質を情報理論の観点から検討する。本稿では,一般に適用される観測エントロピーの新たな境界,および逐次および後処理の測定に関する境界と同一性について述べる。
論文参考訳（メタデータ） (2022-09-08T13:22:15Z)
IRL with Partial Observations using the Principle of Uncertain Maximum Entropy [8.296684637620553]
我々は、不確実な最大エントロピーの原理を導入し、期待最大化に基づく解を示す。我々は,最大因果エントロピー逆強化学習領域において,ノイズデータに対する頑健性の改善を実験的に実証した。
論文参考訳（メタデータ） (2022-08-15T03:22:46Z)
Computationally Efficient PAC RL in POMDPs with Latent Determinism and Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文参考訳（メタデータ） (2022-06-24T05:13:35Z)
Maximum entropy quantum state distributions [58.720142291102135]
我々は、保存された量の完全な分布に関する伝統的な熱力学と条件を超える。その結果、熱状態からの偏差が広い入力分布の極限でより顕著になる量子状態分布が得られた。
論文参考訳（メタデータ） (2022-03-23T17:42:34Z)
Tight Exponential Analysis for Smoothing the Max-Relative Entropy and for Quantum Privacy Amplification [56.61325554836984]
最大相対エントロピーとその滑らかなバージョンは、量子情報理論の基本的な道具である。我々は、精製された距離に基づいて最大相対エントロピーを滑らかにする量子状態の小さな変化の崩壊の正確な指数を導出する。
論文参考訳（メタデータ） (2021-11-01T16:35:41Z)
Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文参考訳（メタデータ） (2021-02-22T19:47:26Z)
Catalytic Transformations of Pure Entangled States [62.997667081978825]
エンタングルメントエントロピー(英: entanglement entropy)は、純粋状態の量子エンタングルメントのフォン・ノイマンエントロピーである。エンタングルメント・エントロピーとエンタングルメント・蒸留との関係は設定のためだけに知られており、シングルコピー体制におけるエンタングルメント・エントロピーの意味はいまだオープンである。この結果から, 量子情報処理に使用する二部質純状態における絡み合いの量は, 絡み合いエントロピーによって定量化され, かつ, 絡み合いの単一コピー構成においても, 運用上の意味を持つことが明らかとなった。
論文参考訳（メタデータ） (2021-02-22T16:05:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。