論文の概要: Entropy-Regularized Partially Observed Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2112.12255v1
- Date: Wed, 22 Dec 2021 22:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:26:39.096051
- Title: Entropy-Regularized Partially Observed Markov Decision Processes
- Title(参考訳): エントロピー正規化部分観察マルコフ決定過程
- Authors: Timothy L. Molloy, Girish N. Nair
- Abstract要約: 状態, 観測, 制御の不確実性を記述するエントロピー項で定式化されたコスト関数を持つ部分観測マルコフ決定過程(POMDP)について検討した。
標準POMDP技術はエントロピー規則化POMDPに対して有界エラー解を提供する。
我々の連立エントロピーは, アクティブ状態推定の新しい定式化を構成するため, 特に驚くべき結果である。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate partially observed Markov decision processes (POMDPs) with
cost functions regularized by entropy terms describing state, observation, and
control uncertainty. Standard POMDP techniques are shown to offer bounded-error
solutions to these entropy-regularized POMDPs, with exact solutions when the
regularization involves the joint entropy of the state, observation, and
control trajectories. Our joint-entropy result is particularly surprising since
it constitutes a novel, tractable formulation of active state estimation.
- Abstract(参考訳): 状態, 観測, 制御の不確実性を記述するエントロピー項で定式化されたコスト関数を持つ部分観測マルコフ決定過程(POMDP)について検討した。
標準的なPOMDP技術は、これらのエントロピー規則化されたPOMDPに対して、正規化が状態の合同エントロピー、観測、制御軌道を含む正確な解を提供する。
我々の連立エントロピーは, アクティブ状態推定の新しい定式化を構成するため, 特に驚くべき結果である。
関連論文リスト
- Entropic Matching for Expectation Propagation of Markov Jump Processes [38.60042579423602]
本稿では,エントロピックマッチングフレームワークに基づく新たなトラクタブル推論手法を提案する。
簡単な近似分布の族に対して閉形式の結果を提供することにより,本手法の有効性を実証する。
我々は、近似予測法を用いて、基礎となるパラメータの点推定のための式を導出する。
論文 参考訳(メタデータ) (2023-09-27T12:07:21Z) - Conditional fluctuation theorems and entropy production for monitored quantum systems under imperfect detection [0.7864304771129751]
非効率なモニタリング装置において,熱力学的エントロピー生成と単一軌道に沿った情報理論的不可逆性を結びつける普遍的ゆらぎ関係を見出した。
本研究は, 量子ジャンプ軌道に追従して, 駆動散逸性2レベルシステムを用いて検討し, 熱力学的推論実験の適用性について検討した。
論文 参考訳(メタデータ) (2023-08-16T16:47:21Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Analysis of the Relative Entropy Asymmetry in the Regularization of
Empirical Risk Minimization [70.540936204654]
相対エントロピー非対称性の効果は、相対エントロピー正則化(ERM-RER)問題による経験的リスク最小化において解析される。
新しい正規化はType-II正規化(Type-II regularization)と呼ばれ、ERM-RER問題の解決を可能にする。
論文 参考訳(メタデータ) (2023-06-12T13:56:28Z) - Sequential Stochastic Optimization in Separable Learning Environments [0.0]
我々は,様々な種類の教師付き学習概念を包含できる,不確実性の下での逐次的意思決定問題について考察する。
これらの問題は完全に観察された状態プロセスと部分的に観察された変調プロセスを持ち、状態プロセスは観察プロセスを通してのみ変調プロセスによって影響を受ける。
我々は、この幅広い問題のクラスを部分的に観察されたマルコフ決定過程(POMDP)としてモデル化する。
論文 参考訳(メタデータ) (2021-08-21T21:29:04Z) - Smoother Entropy for Active State Trajectory Estimation and Obfuscation
in POMDPs [3.42658286826597]
よりスムーズなエントロピーの最適化は オルタナティブアプローチと比較して 軌道推定と難読化に 繋がる
コンケーブコストとコスト・ツー・ゴー機能によるアクティブ・アセスメントと難読化の両面での信念-状態 MDP の再構成を同定する。
論文 参考訳(メタデータ) (2021-08-19T00:05:55Z) - Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。
限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。
我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文 参考訳(メタデータ) (2021-07-13T17:59:25Z) - Controller Synthesis for Omega-Regular and Steady-State Specifications [9.901800502055929]
本稿では,$omega$-regularかつ定常制約を満たす決定論的ポリシーを求めるアルゴリズムを提案する。
我々は我々のアプローチを実験的に評価した。
論文 参考訳(メタデータ) (2021-06-05T19:34:22Z) - Catalytic Transformations of Pure Entangled States [62.997667081978825]
エンタングルメントエントロピー(英: entanglement entropy)は、純粋状態の量子エンタングルメントのフォン・ノイマンエントロピーである。
エンタングルメント・エントロピーとエンタングルメント・蒸留との関係は設定のためだけに知られており、シングルコピー体制におけるエンタングルメント・エントロピーの意味はいまだオープンである。
この結果から, 量子情報処理に使用する二部質純状態における絡み合いの量は, 絡み合いエントロピーによって定量化され, かつ, 絡み合いの単一コピー構成においても, 運用上の意味を持つことが明らかとなった。
論文 参考訳(メタデータ) (2021-02-22T16:05:01Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。