論文の概要: Off-Policy Evaluation for Action-Dependent Non-Stationary Environments
- arxiv url: http://arxiv.org/abs/2301.10330v1
- Date: Tue, 24 Jan 2023 22:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 16:24:28.801149
- Title: Off-Policy Evaluation for Action-Dependent Non-Stationary Environments
- Title(参考訳): 行動依存型非定常環境のオフポリティ評価
- Authors: Yash Chandak, Shiv Shankar, Nathaniel D. Bastian, Bruno Castro da
Silva, Emma Brunskil, Philip S. Thomas
- Abstract要約: シーケンシャルな意思決定の方法は、根底にある決定プロセスが定常であるという基本的な仮定に基づいて構築されることが多い。
これは、実世界の問題は外部要因(パッシブ非定常性)、システム自体との相互作用によって引き起こされる変化(アクティブ非定常性)、あるいはその両方(ハイブリッド非定常性)によってしばしば変化するため、そのような方法の適用を制限する。
本稿では,反実的推論の二重適用と新たな重み付き器量変量回帰を用いたアルゴリズムOPENを提案する。
- 参考スコア(独自算出の注目度): 28.263486678914656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods for sequential decision-making are often built upon a foundational
assumption that the underlying decision process is stationary. This limits the
application of such methods because real-world problems are often subject to
changes due to external factors (passive non-stationarity), changes induced by
interactions with the system itself (active non-stationarity), or both (hybrid
non-stationarity). In this work, we take the first steps towards the
fundamental challenge of on-policy and off-policy evaluation amidst structured
changes due to active, passive, or hybrid non-stationarity. Towards this goal,
we make a higher-order stationarity assumption such that non-stationarity
results in changes over time, but the way changes happen is fixed. We propose,
OPEN, an algorithm that uses a double application of counterfactual reasoning
and a novel importance-weighted instrument-variable regression to obtain both a
lower bias and a lower variance estimate of the structure in the changes of a
policy's past performances. Finally, we show promising results on how OPEN can
be used to predict future performances for several domains inspired by
real-world applications that exhibit non-stationarity.
- Abstract(参考訳): シーケンシャルな意思決定の方法は、根底にある決定プロセスが定常であるという基本的な仮定に基づいて構築されることが多い。
これは、実世界の問題は外部要因(パッシブ非定常性)、システム自体との相互作用によって引き起こされる変化(アクティブ非定常性)、あるいはその両方(ハイブリッド非定常性)によってしばしば変化するため、そのような方法の適用を制限する。
本研究では,アクティブ,パッシブ,ハイブリッドの非定常性による構造的変化の中で,オン・ポリシーおよびオフ・ポリシー評価の根本的な課題に向けて第一歩を踏み出す。
この目標に向けて,非定常性が経時変化をもたらすような高次定常性仮定を行うが,その方法が固定される。
本研究では,反事実推論の二重応用と,新しい重要度重み付け楽器変動回帰を用いて,政策の過去の業績の変化における構造構造の低バイアスと低分散推定を両立させるアルゴリズムを提案する。
最後に、非定常性を示す実世界のアプリケーションに触発されたいくつかの領域におけるOPENの将来のパフォーマンスを予測する方法について、有望な結果を示す。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文 参考訳(メタデータ) (2024-04-01T01:27:07Z) - Effective Restoration of Source Knowledge in Continual Test Time
Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。
情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。
我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-08T19:21:48Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Factored Adaptation for Non-Stationary Reinforcement Learning [17.95935964452725]
本研究では,非定常RL(FANS-RL)に対するFactered Adaptationを提案し,環境の非定常性に対処する。
FANS-RLは、遷移力学と報酬関数に影響を与える個々の潜伏変化因子を明示的に学習する。
FANS-RLは、報酬、潜伏状態表現のコンパクト性、ロバスト性などの点で既存のアプローチよりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-30T18:14:01Z) - Off-Policy Confidence Interval Estimation with Confounded Markov
Decision Process [14.828039846764549]
システム力学における動作の影響を媒介する補助変数によっては、マルコフ決定過程において対象ポリシーの値が識別可能であることを示す。
提案手法は, ライドシェアリング会社から得られた理論的結果, シミュレーション, 実データによって正当化される。
論文 参考訳(メタデータ) (2022-02-22T00:03:48Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。