論文の概要: What should be observed for optimal reward in POMDPs?
- arxiv url: http://arxiv.org/abs/2405.10768v2
- Date: Thu, 11 Jul 2024 08:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:37:59.565106
- Title: What should be observed for optimal reward in POMDPs?
- Title(参考訳): POMDPの最適報酬は何か?
- Authors: Alyzia-Maria Konsta, Alberto Lluch Lafuente, Christoph Matheja,
- Abstract要約: POMDP M が与えられた場合、固定予算内で M の観測能力をどう変えるべきか。
位置戦略のみを考慮すると、一般には決定不可能であり、決定不可能であることを示す。
まず,Mのマルコフ決定過程の最適戦略と,SMTを用いたパラメータ合成に基づく2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov Decision Processes (POMDPs) are a standard model for agents making decisions in uncertain environments. Most work on POMDPs focuses on synthesizing strategies based on the available capabilities. However, system designers can often control an agent's observation capabilities, e.g. by placing or selecting sensors. This raises the question of how one should select an agent's sensors cost-effectively such that it achieves the desired goals. In this paper, we study the novel optimal observability problem OOP: Given a POMDP M, how should one change M's observation capabilities within a fixed budget such that its (minimal) expected reward remains below a given threshold? We show that the problem is undecidable in general and decidable when considering positional strategies only. We present two algorithms for a decidable fragment of the OOP: one based on optimal strategies of M's underlying Markov decision process and one based on parameter synthesis with SMT. We report promising results for variants of typical examples from the POMDP literature.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実な環境で決定を行うエージェントの標準モデルである。
POMDPに関するほとんどの研究は、利用可能な能力に基づいて戦略を合成することに焦点を当てている。
しかしシステムデザイナは、例えばセンサーを設置したり、選択したりすることで、エージェントの観測能力を制御できることが多い。
これにより、目的を達成するために、どのようにエージェントのセンサーを費用対効果で選択すべきかという疑問が持ち上がる。
本稿では,新しい最適可観測性問題OOPについて考察する: POMDP M が与えられた予算内で M の観測能力を変えて,その(最小限の)報奨が与えられた閾値以下であるようにする方法。
位置戦略のみを考慮すると、一般には決定不可能であり、決定不可能であることを示す。
まず,Mのマルコフ決定過程の最適戦略と,SMTを用いたパラメータ合成に基づく2つのアルゴリズムを提案する。
典型例の変種について,POMDP文献から有望な結果を得た。
関連論文リスト
- How to Exhibit More Predictable Behaviors [3.5248694676821484]
本稿では,外部オブザーバが行うことができる予測を最適化するために,エージェントがその戦略を選択する必要がある予測可能性問題について考察する。
環境力学や観察対象者の政策について不確実性を考慮して検討する。
本稿では,エージェントポリシーに対するオブザーバの信念に基づいて,報酬関数を用いた行動予測可能性評価基準を提案する。
論文 参考訳(メタデータ) (2024-04-17T12:06:17Z) - Monte-Carlo Search for an Equilibrium in Dec-POMDPs [11.726372393432195]
分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)は、協調エージェントのグループに対する個々のコントローラの問題を形式化する。
ナッシュ均衡(各エージェント政策が、他のエージェントにとって最良の反応)を求めることは、よりアクセスしやすくなっている。
提案手法は,Dec-POMDPの生成モデル(シミュレータ)のみが利用可能である場合に適応可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:47:46Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Initial Design Strategies and their Effects on Sequential Model-Based
Optimization [0.9281671380673306]
逐次モデルベース最適化(英: Sequential model-based optimization, SMBO)は、計算や高価な関数評価を必要とする問題を解くアルゴリズムである。
本研究では,初期サンプルのサイズと分布が,効率的なグローバル最適化(EGO)アルゴリズムの全体的な品質に与える影響を解析する。
論文 参考訳(メタデータ) (2020-03-30T21:25:41Z) - POPCORN: Partially Observed Prediction COnstrained ReiNforcement
Learning [33.716448855358536]
本稿では,高性能なポリシと高品質な生成モデルの両方を生産する新たな最適化手法を提案する。
本研究は, 合成例と医学的意思決定問題に対するアプローチを実証する。
論文 参考訳(メタデータ) (2020-01-13T01:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。