論文の概要: On State Variables, Bandit Problems and POMDPs
- arxiv url: http://arxiv.org/abs/2002.06238v1
- Date: Fri, 14 Feb 2020 20:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:48:52.330743
- Title: On State Variables, Bandit Problems and POMDPs
- Title(参考訳): 状態変数・帯域問題・PMDPについて
- Authors: Warren B Powell
- Abstract要約: 状態変数は、シーケンシャルな決定問題の最も微妙な次元である。
シーケンシャルな決定問題をモデル化する標準的なフレームワークについて説明する。
次に、部分的に可観測なマルコフ決定問題に対する新しい2項の視点を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State variables are easily the most subtle dimension of sequential decision
problems. This is especially true in the context of active learning problems
(bandit problems") where decisions affect what we observe and learn. We
describe our canonical framework that models {\it any} sequential decision
problem, and present our definition of state variables that allows us to claim:
Any properly modeled sequential decision problem is Markovian. We then present
a novel two-agent perspective of partially observable Markov decision problems
(POMDPs) that allows us to then claim: Any model of a real decision problem is
(possibly) non-Markovian. We illustrate these perspectives using the context of
observing and treating flu in a population, and provide examples of all four
classes of policies in this setting. We close with an indication of how to
extend this thinking to multiagent problems.
- Abstract(参考訳): 状態変数はシーケンシャルな決定問題の最も微妙な次元である。
これは、意思決定が観察や学習に影響を与える、アクティブな学習問題(バンド問題)の文脈で特に当てはまります。
シーケンシャルな決定問題をモデル化する私たちの標準的フレームワークを説明し、私たちが主張できる状態変数の定義を示す: 適切にモデル化されたシーケンシャルな決定問題はマルコフ的です。
次に, 部分可観測マルコフ決定問題(pomdps)の新たな二元的視点を提示し, 実決定問題のモデルはすべて(多分)非マルコフであることを示す。
これらの視点は、集団におけるインフルエンザの観察と治療の文脈を用いて説明し、この設定における4つの政策のすべて例を示す。
我々は、この考え方をマルチエージェント問題にどのように拡張するかを示す。
関連論文リスト
- Causally Abstracted Multi-armed Bandits [7.741729770041214]
マルチアームバンディット (MAB) と因果MAB (CMAB) は意思決定問題の枠組みとして確立されている。
転送学習を、潜在的に異なる変数で定義されたCMABを含む設定に拡張する。
本稿では,CAMABで学習するアルゴリズムを提案し,その後悔について検討する。
論文 参考訳(メタデータ) (2024-04-26T15:48:09Z) - On Imperfect Recall in Multi-Agent Influence Diagrams [57.21088266396761]
マルチエージェント・インフルエンス・ダイアグラム(MAID)はベイズネットワークに基づくゲーム理論モデルとして人気がある。
混合ポリシと2種類の相関平衡を用いて, 忘れ易いエージェントと不注意なエージェントでMAIDを解く方法を示す。
また,不完全なリコールがしばしば避けられないマルコフゲームやチーム状況へのMAIDの適用についても述べる。
論文 参考訳(メタデータ) (2023-07-11T07:08:34Z) - On solving decision and risk management problems subject to uncertainty [91.3755431537592]
不確実性は意思決定とリスク管理において広範囲にわたる課題である。
本稿では,このような戦略を体系的に理解し,その適用範囲を判断し,それらをうまく活用するための枠組みを開発する。
論文 参考訳(メタデータ) (2023-01-18T19:16:23Z) - What is a decision problem? [0.0]
私たちのモチベーションは、意思決定分析と運用研究が、メソッドのクラスを中心に(規律として)構造化されているという事実に関連しています。
この目的のために、クライアントから提供された(または提供された)プリミティブに基づいて、既存のメソッドとは独立して、新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2023-01-07T01:03:08Z) - Reinforcement Learning in Presence of Discrete Markovian Context
Evolution [7.467644044726776]
a) 直接観測不可能な文脈の未知の有限個の数、b) エピソード中に突然発生する(不連続な)文脈変化、c) マルコフ的文脈進化を特徴とする文脈依存強化学習環境を考える。
我々はモデル学習に先立って、粘着した階層的ディリクレプロセス(HDP)を適用する。
これら2つのコンポーネントの組み合わせによって、コンテキストの濃度仮定を扱うデータからコンテキストの数を推測することが可能である、と我々は主張する。
論文 参考訳(メタデータ) (2022-02-14T08:52:36Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Verification of indefinite-horizon POMDPs [63.6726420864286]
本稿では,部分観測可能なMDPの検証問題について考察する。
本稿では,Lovejoy-approachの過去のインスタンス化を拡張した抽象化・リファインメント・フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-30T21:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。