論文の概要: What should be observed for optimal reward in POMDPs?
- arxiv url: http://arxiv.org/abs/2405.10768v1
- Date: Fri, 17 May 2024 13:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:03:21.647869
- Title: What should be observed for optimal reward in POMDPs?
- Title(参考訳): POMDPの最適報酬は何か?
- Authors: Alyzia-Maria Konsta, Alberto Lluch Lafuente, Christoph Matheja,
- Abstract要約: POMDP M が与えられた場合、固定予算内で M の観測能力をどう変えるべきか。
位置戦略のみを考慮すると、一般には決定不可能であり、決定不可能であることを示す。
まず,Mのマルコフ決定過程の最適戦略と,SMTを用いたパラメータ合成に基づく2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov Decision Processes (POMDPs) are a standard model for agents making decisions in uncertain environments. Most work on POMDPs focuses on synthesizing strategies based on the available capabilities. However, system designers can often control an agent's observation capabilities, e.g. by placing or selecting sensors. This raises the question of how one should select an agent's sensors cost-effectively such that it achieves the desired goals. In this paper, we study the novel optimal observability problem OOP: Given a POMDP M, how should one change M's observation capabilities within a fixed budget such that its (minimal) expected reward remains below a given threshold? We show that the problem is undecidable in general and decidable when considering positional strategies only. We present two algorithms for a decidable fragment of the OOP: one based on optimal strategies of M's underlying Markov decision process and one based on parameter synthesis with SMT. We report promising results for variants of typical examples from the POMDP literature.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実な環境で決定を行うエージェントの標準モデルである。
POMDPに関するほとんどの研究は、利用可能な能力に基づいて戦略を合成することに焦点を当てている。
しかしシステムデザイナは、例えばセンサーを設置したり、選択したりすることで、エージェントの観測能力を制御できることが多い。
これにより、目的を達成するために、どのようにエージェントのセンサーを費用対効果で選択すべきかという疑問が持ち上がる。
本稿では,新しい最適可観測性問題OOPについて考察する: POMDP M が与えられた予算内で M の観測能力を変えて,その(最小限の)報奨が与えられた閾値以下であるようにする方法。
位置戦略のみを考慮すると、一般には決定不可能であり、決定不可能であることを示す。
まず,Mのマルコフ決定過程の最適戦略と,SMTを用いたパラメータ合成に基づく2つのアルゴリズムを提案する。
典型例の変種について,POMDP文献から有望な結果を得た。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Metareasoning in uncertain environments: a meta-BAMDP framework [1.0923877073891441]
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
最初のステップとして、人間の意思決定によく使われる2本腕のBernoulli bandit(TABB)タスクにこのフレームワークを適用します。
論文 参考訳(メタデータ) (2024-08-02T13:15:01Z) - How to Exhibit More Predictable Behaviors [3.5248694676821484]
本稿では,外部オブザーバが行うことができる予測を最適化するために,エージェントがその戦略を選択する必要がある予測可能性問題について考察する。
環境力学や観察対象者の政策について不確実性を考慮して検討する。
本稿では,エージェントポリシーに対するオブザーバの信念に基づいて,報酬関数を用いた行動予測可能性評価基準を提案する。
論文 参考訳(メタデータ) (2024-04-17T12:06:17Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - POPCORN: Partially Observed Prediction COnstrained ReiNforcement
Learning [33.716448855358536]
本稿では,高性能なポリシと高品質な生成モデルの両方を生産する新たな最適化手法を提案する。
本研究は, 合成例と医学的意思決定問題に対するアプローチを実証する。
論文 参考訳(メタデータ) (2020-01-13T01:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。