論文の概要: Intervention Efficient Algorithm for Two-Stage Causal MDPs
- arxiv url: http://arxiv.org/abs/2111.00886v1
- Date: Mon, 1 Nov 2021 12:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:00:50.077574
- Title: Intervention Efficient Algorithm for Two-Stage Causal MDPs
- Title(参考訳): 2段階因果MDPの干渉効率アルゴリズム
- Authors: Rahul Madhavan, Aurghya Maiti, Gaurav Sinha and Siddharth Barman
- Abstract要約: 本稿では,報酬を生成する因果グラフに対応するマルコフ決定過程(MDP)について検討する。
この設定では、学習者の目標は、各状態の変数に介入することで高い報酬をもたらす原子的介入を特定することである。
最近の因果関係の枠組みを一般化し、この研究は2段階の因果関係のMDPに対する(単純な)後悔の最小化保証を開発する。
- 参考スコア(独自算出の注目度): 15.838256272508357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study Markov Decision Processes (MDP) wherein states correspond to causal
graphs that stochastically generate rewards. In this setup, the learner's goal
is to identify atomic interventions that lead to high rewards by intervening on
variables at each state. Generalizing the recent causal-bandit framework, the
current work develops (simple) regret minimization guarantees for two-stage
causal MDPs, with parallel causal graph at each state. We propose an algorithm
that achieves an instance dependent regret bound. A key feature of our
algorithm is that it utilizes convex optimization to address the exploration
problem. We identify classes of instances wherein our regret guarantee is
essentially tight, and experimentally validate our theoretical results.
- Abstract(参考訳): マルコフ決定過程 (MDP) では、状態が確率的に報酬を生成する因果グラフに対応する。
この設定では、学習者の目標は、各状態の変数に介入することで高い報酬をもたらす原子的介入を特定することである。
最近の因果関係の枠組みを一般化し、それぞれの状態に平行な因果関係グラフを持つ2段階の因果関係のMDPに対する(単純な)最小化保証を開発する。
インスタンス依存の後悔の束縛を実現するアルゴリズムを提案する。
このアルゴリズムの重要な特徴は、凸最適化を利用して探索問題に対処することである。
後悔の保証が本質的にきついインスタンスのクラスを特定し、理論的結果を実験的に検証する。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs [9.58750210024265]
バンディットとマルコフ決定過程(MDP)に対する(確率的)ソフトマックスポリシー勾配(PG)法について検討する。
提案アルゴリズムは,技術結果と類似した理論的保証を提供するが,オラクルのような量の知識は必要としないことを示す。
マルチアームバンディット設定の場合,提案手法は明示的な探索や報奨ギャップの知識,報奨分布,ノイズを必要としない理論的なPGアルゴリズムを実現する。
論文 参考訳(メタデータ) (2024-05-21T18:12:39Z) - Confounded Budgeted Causal Bandits [28.199741662190203]
基礎となる因果グラフをモデルとした環境における「良い」介入の学習問題について検討する。
良い介入は報酬を最大化する介入を指す。
一般因果グラフにおける累積後悔を最小限に抑えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-15T10:26:13Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。