Fugu-MT 論文翻訳(概要): Off-Policy Evaluation via the Regularized Lagrangian

論文の概要: Off-Policy Evaluation via the Regularized Lagrangian

arxiv url: http://arxiv.org/abs/2007.03438v2
Date: Fri, 24 Jul 2020 21:32:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 19:14:22.933928
Title: Off-Policy Evaluation via the Regularized Lagrangian
Title（参考訳）: 正規化ラグランジアンによるオフポリシー評価
Authors: Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li, Dale Schuurmans
Abstract要約: 最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
参考スコア（独自算出の注目度）: 110.28927184857478
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently proposed distribution correction estimation (DICE) family of estimators has advanced the state of the art in off-policy evaluation from behavior-agnostic data. While these estimators all perform some form of stationary distribution correction, they arise from different derivations and objective functions. In this paper, we unify these estimators as regularized Lagrangians of the same linear program. The unification allows us to expand the space of DICE estimators to new alternatives that demonstrate improved performance. More importantly, by analyzing the expanded space of estimators both mathematically and empirically we find that dual solutions offer greater flexibility in navigating the tradeoff between optimization stability and estimation bias, and generally provide superior estimates in practice.
Abstract（参考訳）: 近年提案されている分布補正推定(dice)ファミリーは,行動によらないデータから,オフポリシー評価における最先端の手法である。これらの推定子はいずれも定常分布の補正を行うが、それらは異なる導出と目的関数から生じる。本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。この統合により、DICE推定器の空間を、性能改善を示す新しい代替手段に拡張することができる。さらに重要なことは、数学的にも経験的にも拡張された推定器の空間を解析することで、双対解は最適化安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた推定値を提供する。

関連論文リスト

Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。提案手法の有効性と実用性を理論的に検証した。
論文参考訳（メタデータ） (2025-06-12T13:11:01Z)
Doubly-Robust Estimation of Counterfactual Policy Mean Embeddings [24.07815507403025]
反ファクトポリシーの下での成果の分配を推定することは、推薦、広告、医療といった領域における意思決定にとって重要である。我々は、再生されたカーネルヒルベルト空間の反事実分布全体を表す新しいフレームワーク-Counterfactual Policy Mean Embedding (CPME) を解析する。
論文参考訳（メタデータ） (2025-06-03T12:16:46Z)
Primal-Dual Spectral Representation for Off-policy Evaluation [39.24759979398673]
外部政治評価(OPE)は、強化学習(RL)における最も基本的な問題の1つである。我々のアルゴリズムであるSpectralDICEは原始的かつ標本効率が高く、その性能は厳密な理論的なサンプル複雑性保証と様々なベンチマークでの徹底的な経験的評価によって支えられている。
論文参考訳（メタデータ） (2024-10-23T03:38:31Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Off-Policy Evaluation for Large Action Spaces via Conjunct Effect Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文参考訳（メタデータ） (2023-05-14T04:16:40Z)
Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文参考訳（メタデータ） (2022-10-15T17:22:30Z)
Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。既存のOPE推定器は、アクションの数が大きいと著しく劣化する。我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文参考訳（メタデータ） (2022-02-13T14:00:09Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文参考訳（メタデータ） (2021-06-24T15:58:01Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。