論文の概要: Off-policy Confidence Sequences
- arxiv url: http://arxiv.org/abs/2102.09540v1
- Date: Thu, 18 Feb 2021 18:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:24:43.498216
- Title: Off-policy Confidence Sequences
- Title(参考訳): Off-policy Confidence Sequences
- Authors: Nikos Karampatziakis, Paul Mineiro, Aaditya Ramdas
- Abstract要約: 文脈的バンディット設定において,オフポリシー評価に一定時間をかけて保持する信頼度境界を開発する。
計算効率と統計効率のバランスを良くする信頼度列を計算するためのアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 33.749904615295485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop confidence bounds that hold uniformly over time for off-policy
evaluation in the contextual bandit setting. These confidence sequences are
based on recent ideas from martingale analysis and are non-asymptotic,
non-parametric, and valid at arbitrary stopping times. We provide algorithms
for computing these confidence sequences that strike a good balance between
computational and statistical efficiency. We empirically demonstrate the
tightness of our approach in terms of failure probability and width and apply
it to the "gated deployment" problem of safely upgrading a production
contextual bandit system.
- Abstract(参考訳): 文脈的バンディット設定において,オフポリシー評価に一定時間をかけて保持する信頼度境界を開発する。
これらの信頼の順序はMartingaleの分析からの最近の考えに基づいてあり、任意停止時間に非asymptotic、非パラメトリック、および有効です。
計算効率と統計効率のバランスを良くする信頼度列を計算するためのアルゴリズムを提供する。
フェール確率とワイドの観点から,我々のアプローチの厳密さを実証的に実証し,プロダクションコンテキストのバンディットシステムを安全にアップグレードする"ゲート展開"問題に適用する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Tighter Confidence Bounds for Sequential Kernel Regression [3.683202928838613]
信頼性の強いバウンダリは、より優れた経験的パフォーマンスとより良いパフォーマンス保証を備えたアルゴリズムを生み出します。
我々は、無限次元凸プログラムのマーチンゲールテール境界と有限次元再構成を用いて、シーケンシャルカーネル回帰のための新しい信頼境界を確立する。
論文 参考訳(メタデータ) (2024-03-19T13:47:35Z) - High Confidence Level Inference is Almost Free using Parallel Stochastic
Optimization [16.38026811561888]
本稿では,高効率計算と高速収束による信頼区間構築に焦点をあてた新しい推論手法を提案する。
提案手法は,推定値の標準的な更新を超える最小限の計算量とメモリを必要とするため,推論処理はほとんどコストがかからない。
論文 参考訳(メタデータ) (2024-01-17T17:11:45Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for
Martingale Mixtures [26.683757807252675]
線形バンディット問題に対する最悪の後悔の保証を施した改良アルゴリズムを提案する。
我々は、我々の信頼シーケンスが、経験的にも理論的にも、競合よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-09-25T17:13:46Z) - Huber-Robust Confidence Sequences [37.16361789841549]
信頼シーケンスは、逐次追跡可能な信頼区間であり、任意のデータ依存の停止時間で有効である。
非逐次的設定で達成された最適幅を達成するために,結果の信頼性シーケンスが得られたことを示す。
信頼シーケンスは、A/B/nテストやバンドイットで使用される一般的なツールであるため、これらの結果は、外れ値や敵の腐敗に対して堅牢なシーケンシャルな実験への扉を開く。
論文 参考訳(メタデータ) (2023-01-23T17:29:26Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。