論文の概要: GenDICE: Generalized Offline Estimation of Stationary Values
- arxiv url: http://arxiv.org/abs/2002.09072v1
- Date: Fri, 21 Feb 2020 00:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:34:38.615722
- Title: GenDICE: Generalized Offline Estimation of Stationary Values
- Title(参考訳): GenDICE: 定常値の一般化オフライン推定
- Authors: Ruiyi Zhang, Bo Dai, Lihong Li, Dale Schuurmans
- Abstract要約: 重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
- 参考スコア(独自算出の注目度): 108.17309783125398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important problem that arises in reinforcement learning and Monte Carlo
methods is estimating quantities defined by the stationary distribution of a
Markov chain. In many real-world applications, access to the underlying
transition operator is limited to a fixed set of data that has already been
collected, without additional interaction with the environment being available.
We show that consistent estimation remains possible in this challenging
scenario, and that effective estimation can still be achieved in important
applications. Our approach is based on estimating a ratio that corrects for the
discrepancy between the stationary and empirical distributions, derived from
fundamental properties of the stationary distribution, and exploiting
constraint reformulations based on variational divergence minimization. The
resulting algorithm, GenDICE, is straightforward and effective. We prove its
consistency under general conditions, provide an error analysis, and
demonstrate strong empirical performance on benchmark problems, including
off-line PageRank and off-policy policy evaluation.
- Abstract(参考訳): 強化学習やモンテカルロ法で生じる重要な問題は、マルコフ連鎖の定常分布によって定義される量を推定することである。
多くの現実世界のアプリケーションでは、基盤となるトランジッション演算子へのアクセスは、利用可能な環境との追加的なインタラクションなしに、すでに収集された固定されたデータセットに限定されている。
この難易度シナリオでは一貫した推定が可能であり,重要な応用においても効果的な推定が可能となることを示す。
提案手法は, 定常分布と経験分布の相違を補正する比率を推定し, 定常分布の基本的な性質から推定し, 変動分散最小化に基づく制約修正を利用する。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
一般的な条件下での整合性を証明し、エラー解析を行い、オフラインのPageRankや非政治政策評価を含むベンチマーク問題に対して強い経験的性能を示す。
関連論文リスト
- COD: Learning Conditional Invariant Representation for Domain Adaptation Regression [20.676363400841495]
ドメイン適応回帰(Domain Adaptation Regression)は、ソースドメインからラベルのないターゲットドメインへのラベルの知識を一般化するために開発された。
既存の条件分布アライメント理論と離散前処理法はもはや適用できない。
誤差を最小限に抑えるために,CODに基づく条件付き不変表現学習モデルを提案する。
論文 参考訳(メタデータ) (2024-08-13T05:08:13Z) - Optimal Aggregation of Prediction Intervals under Unsupervised Domain Shift [9.387706860375461]
分散シフトは、基礎となるデータ生成プロセスが変化したときに発生し、モデルの性能のずれにつながる。
予測間隔は、その基礎となる分布によって引き起こされる不確実性を特徴づける重要なツールとして機能する。
予測区間を集約し,最小の幅と対象領域を適切にカバーする手法を提案する。
論文 参考訳(メタデータ) (2024-05-16T17:55:42Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。