論文の概要: Off-policy Evaluation in Doubly Inhomogeneous Environments
- arxiv url: http://arxiv.org/abs/2306.08719v2
- Date: Thu, 7 Sep 2023 16:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 17:07:30.012150
- Title: Off-policy Evaluation in Doubly Inhomogeneous Environments
- Title(参考訳): 二重不均質環境におけるオフポリシー評価
- Authors: Zeyu Bian, Chengchun Shi, Zhengling Qi and Lan Wang
- Abstract要約: 我々はモデルベースとモデルフリーの両方のアプローチからなる汎用OPEフレームワークを開発する。
この論文は、二重不均一なオフラインRLにおける統計的に健全なOPE法を開発した最初の論文である。
- 参考スコア(独自算出の注目度): 29.434386775600498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims to study off-policy evaluation (OPE) under scenarios where two
key reinforcement learning (RL) assumptions -- temporal stationarity and
individual homogeneity are both violated. To handle the ``double
inhomogeneities", we propose a class of latent factor models for the reward and
observation transition functions, under which we develop a general OPE
framework that consists of both model-based and model-free approaches. To our
knowledge, this is the first paper that develops statistically sound OPE
methods in offline RL with double inhomogeneities. It contributes to a deeper
understanding of OPE in environments, where standard RL assumptions are not
met, and provides several practical approaches in these settings. We establish
the theoretical properties of the proposed value estimators and empirically
show that our approach outperforms competing methods that ignore either
temporal nonstationarity or individual heterogeneity. Finally, we illustrate
our method on a data set from the Medical Information Mart for Intensive Care.
- Abstract(参考訳): 本研究の目的は,2つの重要な強化学習(RL)の仮定 – 時間的定常性と個人的均質性の両方に違反するシナリオの下で,政治外評価(OPE)を研究することである。
二重不均一性」を扱うために、モデルベースとモデルフリーの両方のアプローチからなる一般的なOPEフレームワークを開発するために、報酬および観測遷移関数のための潜在因子モデルのクラスを提案する。
我々の知る限り、この論文は二重不均一なオフラインRLにおける統計的に健全なOPE法を開発した最初の論文である。
標準的なRL仮定が満たされていない環境でのOPEの深い理解に寄与し、これらの設定においていくつかの実践的なアプローチを提供する。
提案する値推定器の理論的性質を定め,その手法が時間的非定常性や個人的不均一性を無視する競合手法よりも優れていることを実証的に示す。
最後に,集中治療のための医療情報マートから得られたデータセットについて述べる。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Distributional Off-policy Evaluation with Bellman Residual Minimization [12.343981093497332]
配電型オフ政治評価(OPE)について検討する。
目標は、異なるポリシーによって生成されたオフラインデータを使用して、ターゲットポリシーに対するリターンの分布を学習することである。
我々はEnergy Bellman Residual Minimizer (EBRM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:59:29Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Distributionally Robust Causal Inference with Observational Data [4.8986598953553555]
非確立性の標準的な仮定を伴わない観察研究における平均治療効果の推定を考察する。
本稿では,無観測の共同設立者が存在する可能性を考慮した,一般的な観察研究環境下での堅牢な因果推論の枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-15T16:02:33Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。