論文の概要: Off-Policy Evaluation via the Regularized Lagrangian
- arxiv url: http://arxiv.org/abs/2007.03438v2
- Date: Fri, 24 Jul 2020 21:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 19:14:22.933928
- Title: Off-Policy Evaluation via the Regularized Lagrangian
- Title(参考訳): 正規化ラグランジアンによるオフポリシー評価
- Authors: Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li, Dale Schuurmans
- Abstract要約: 最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
- 参考スコア(独自算出の注目度): 110.28927184857478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed distribution correction estimation (DICE) family of
estimators has advanced the state of the art in off-policy evaluation from
behavior-agnostic data. While these estimators all perform some form of
stationary distribution correction, they arise from different derivations and
objective functions. In this paper, we unify these estimators as regularized
Lagrangians of the same linear program. The unification allows us to expand the
space of DICE estimators to new alternatives that demonstrate improved
performance. More importantly, by analyzing the expanded space of estimators
both mathematically and empirically we find that dual solutions offer greater
flexibility in navigating the tradeoff between optimization stability and
estimation bias, and generally provide superior estimates in practice.
- Abstract(参考訳): 近年提案されている分布補正推定(dice)ファミリーは,行動によらないデータから,オフポリシー評価における最先端の手法である。
これらの推定子はいずれも定常分布の補正を行うが、それらは異なる導出と目的関数から生じる。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
この統合により、DICE推定器の空間を、性能改善を示す新しい代替手段に拡張することができる。
さらに重要なことは、数学的にも経験的にも拡張された推定器の空間を解析することで、双対解は最適化安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた推定値を提供する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-14T04:16:40Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Distributional robustness of K-class estimators and the PULSE [4.56877715768796]
古典的Kクラス推定器は、Kクラス推定器とアンカー回帰との接続を確立することにより、そのような最適性を満たすことを証明する。
データ駆動型シミュレーションKクラス推定器として効率的に計算できることを示す。
弱い楽器の設定を含むいくつかの設定があり、他の推定値よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T09:39:07Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。