Fugu-MT 論文翻訳(概要): Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning

論文の概要: Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning

arxiv url: http://arxiv.org/abs/2506.06873v1
Date: Sat, 07 Jun 2025 17:37:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.539736
Title: Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning
Title（参考訳）: オフライン評価・学習のためのログサム指数推定器
Authors: Armin Behnamnia, Gholamali Aminian, Alireza Aghaei, Chengchun Shi, Vincent Y. F. Tan, Hamid R. Rabiee,
Abstract要約: 従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
参考スコア（独自算出の注目度）: 50.93804891554481
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Off-policy learning and evaluation leverage logged bandit feedback datasets, which contain context, action, propensity score, and feedback for each data point. These scenarios face significant challenges due to high variance and poor performance with low-quality propensity scores and heavy-tailed reward distributions. We address these issues by introducing a novel estimator based on the log-sum-exponential (LSE) operator, which outperforms traditional inverse propensity score estimators. Our LSE estimator demonstrates variance reduction and robustness under heavy-tailed conditions. For off-policy evaluation, we derive upper bounds on the estimator's bias and variance. In the off-policy learning scenario, we establish bounds on the regret -- the performance gap between our LSE estimator and the optimal policy -- assuming bounded $(1+\epsilon)$-th moment of weighted reward. Notably, we achieve a convergence rate of $O(n^{-\epsilon/(1+ \epsilon)})$ for the regret bounds, where $\epsilon \in [0,1]$ and $n$ is the size of logged bandit feedback dataset. Theoretical analysis is complemented by comprehensive empirical evaluations in both off-policy learning and evaluation scenarios, confirming the practical advantages of our approach. The code for our estimator is available at the following link: https://github.com/armin-behnamnia/lse-offpolicy-learning.
Abstract（参考訳）: オフ政治学習と評価は、コンテキスト、アクション、妥当性スコア、各データポイントに対するフィードバックを含むログ付き帯域フィードバックデータセットを活用する。これらのシナリオは、高ばらつきと低品質の確率スコアと重み付き報酬分布によるパフォーマンスの低下により、重大な課題に直面している。従来の逆相対性スコア推定よりも優れるlog-sum-exponential (LSE)演算子に基づく新しい推定器を導入することで、これらの問題に対処する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治外の評価では,推定器のバイアスと分散の上限を導出する。政治以外の学習シナリオでは、重み付けされた報酬の1+\epsilon)$-thの限界を仮定して、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を定めます。特に、後悔境界に対して$O(n^{-\epsilon/(1+ \epsilon)})$の収束率を達成し、$\epsilon \in [0,1]$と$n$は、ログ化された帯域フィードバックデータセットのサイズである。理論的分析は、政治以外の学習シナリオと評価シナリオの両方において総合的な経験的評価によって補完され、我々のアプローチの実践的利点が確認される。我々の推定器のコードは以下のリンクで利用可能である。

関連論文リスト

Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T19:53:56Z)
Contextual Linear Optimization with Bandit Feedback [35.692428244561626]
文脈線形最適化(CLO)は、ランダムコスト係数の不確実性を低減するために予測的文脈特徴を用いる。我々は,帯域幅フィードバックを用いたCLOのためのオフライン学習アルゴリズムのクラスについて検討する。 IERMに対する高速な後悔境界を示し、不特定モデルクラスと最適化推定の柔軟な選択を可能にする。
論文参考訳（メタデータ） (2024-05-26T13:27:27Z)
Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文参考訳（メタデータ） (2023-09-27T16:42:10Z)
Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文参考訳（メタデータ） (2023-05-26T12:30:05Z)
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-30T17:26:39Z)
Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文参考訳（メタデータ） (2022-12-29T22:01:43Z)
Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文参考訳（メタデータ） (2021-06-24T15:58:01Z)
Sparse Feature Selection Makes Batch Reinforcement Learning More Sample Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文参考訳（メタデータ） (2020-11-08T16:48:02Z)
Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文参考訳（メタデータ） (2020-10-24T10:44:02Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。