論文の概要: A Graphical Approach to State Variable Selection in Off-policy Learning
- arxiv url: http://arxiv.org/abs/2501.00854v1
- Date: Wed, 01 Jan 2025 14:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:07.309821
- Title: A Graphical Approach to State Variable Selection in Off-policy Learning
- Title(参考訳): オフ政治学習における状態変数選択へのグラフ的アプローチ
- Authors: Joakim Blach Andersen, Qingyuan Zhao,
- Abstract要約: 一般的な意思決定プロセスにおけるグラフィカルな識別基準のセットを提供する。
この結果が動的治療体制やオフライン強化学習文献においてしばしば暗黙の因果仮定とどのように関係しているかを論じる。
本稿では,コンテナのロジスティクスで発生する動的価格問題に対する現実的なシミュレーション研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sequential decision problems are widely studied across many areas of science. A key challenge when learning policies from historical data - a practice commonly referred to as off-policy learning - is how to ``identify'' the impact of a policy of interest when the observed data are not randomized. Off-policy learning has mainly been studied in two settings: dynamic treatment regimes (DTRs), where the focus is on controlling confounding in medical problems with short decision horizons, and offline reinforcement learning (RL), where the focus is on dimension reduction in closed systems such as games. The gap between these two well studied settings has limited the wider application of off-policy learning to many real-world problems. Using the theory for causal inference based on acyclic directed mixed graph (ADMGs), we provide a set of graphical identification criteria in general decision processes that encompass both DTRs and MDPs. We discuss how our results relate to the often implicit causal assumptions made in the DTR and RL literatures and further clarify several common misconceptions. Finally, we present a realistic simulation study for the dynamic pricing problem encountered in container logistics, and demonstrate how violations of our graphical criteria can lead to suboptimal policies.
- Abstract(参考訳): 連続的な決定問題は科学の多くの領域で広く研究されている。
歴史的データから政策を学習する際の重要な課題は、観察されたデータがランダム化されていない場合の政策の影響を「特定」する方法である。
オフ・ポリシー・ラーニングは主に、動的治療体制(DTR)とオフライン強化学習(RL)の2つの分野で研究されている。
これら2つのよく研究された設定のギャップは、現実の多くの問題に対して、非政治的な学習の幅広い適用を制限している。
非巡回有向混合グラフ(ADMG)に基づく因果推論の理論を用いて、DTRとMDPの両方を含む一般的な意思決定プロセスにおいて、グラフィカルな識別基準のセットを提供する。
我々はDTRとRLの文献でしばしば暗黙の因果仮定とどのように関係しているかを議論し、さらにいくつかの一般的な誤解を明らかにした。
最後に,コンテナのロジスティクスで発生する動的価格問題に対する現実的なシミュレーションを行い,グラフィカルな基準の違反が最適以下のポリシーにどう影響するかを実証する。
関連論文リスト
- An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Solving the flexible job-shop scheduling problem through an enhanced
deep reinforcement learning approach [1.565361244756411]
本稿では、特に大規模インスタンスにおいて、フレキシブルなジョブショップスケジューリング問題を解決するための新しいDRL法を提案する。
このアプローチは、問題をより情報的なグラフ表現にヘテロジニアスグラフニューラルネットワークを使用することに基づいている。
論文 参考訳(メタデータ) (2023-10-24T10:35:08Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions [13.774600272141761]
強化学習アルゴリズムは、様々な領域において変形的であることが証明されている。
RLの多くの理論は、離散状態空間や最悪のケース解析に焦点を当てている。
本稿では,様々な学習プロトコルを捉えることができるRLの高次元解像モデルを提案する。
論文 参考訳(メタデータ) (2023-06-17T18:16:51Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。