Fugu-MT 論文翻訳(概要): Off-policy Confidence Sequences

論文の概要: Off-policy Confidence Sequences

arxiv url: http://arxiv.org/abs/2102.09540v1
Date: Thu, 18 Feb 2021 18:40:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-19 14:24:43.498216
Title: Off-policy Confidence Sequences
Title（参考訳）: Off-policy Confidence Sequences
Authors: Nikos Karampatziakis, Paul Mineiro, Aaditya Ramdas
Abstract要約: 文脈的バンディット設定において,オフポリシー評価に一定時間をかけて保持する信頼度境界を開発する。計算効率と統計効率のバランスを良くする信頼度列を計算するためのアルゴリズムを提供する。
参考スコア（独自算出の注目度）: 33.749904615295485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We develop confidence bounds that hold uniformly over time for off-policy evaluation in the contextual bandit setting. These confidence sequences are based on recent ideas from martingale analysis and are non-asymptotic, non-parametric, and valid at arbitrary stopping times. We provide algorithms for computing these confidence sequences that strike a good balance between computational and statistical efficiency. We empirically demonstrate the tightness of our approach in terms of failure probability and width and apply it to the "gated deployment" problem of safely upgrading a production contextual bandit system.
Abstract（参考訳）: 文脈的バンディット設定において,オフポリシー評価に一定時間をかけて保持する信頼度境界を開発する。これらの信頼の順序はMartingaleの分析からの最近の考えに基づいてあり、任意停止時間に非asymptotic、非パラメトリック、および有効です。計算効率と統計効率のバランスを良くする信頼度列を計算するためのアルゴリズムを提供する。フェール確率とワイドの観点から,我々のアプローチの厳密さを実証的に実証し,プロダクションコンテキストのバンディットシステムを安全にアップグレードする"ゲート展開"問題に適用する。

関連論文リスト

A new and flexible class of sharp asymptotic time-uniform confidence sequences [0.0]
古典統計学のように、信頼性シーケンスは高レベルの仮定カバレッジが達成されることを示す非パラメトリックツールである。軽度の仮定の下で、鋭い時間一様信頼系列を生成する新しいフレキシブルな信頼系列のクラスを提案する。
論文参考訳（メタデータ） (2025-02-14T18:57:16Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Tighter Confidence Bounds for Sequential Kernel Regression [3.683202928838613]
我々は、シーケンシャルカーネル回帰のための新しい信頼境界を確立するために、マーチンゲールテール不等式を使用する。私たちの信頼境界は円錐プログラムを解くことで計算できるが、この素バージョンはすぐに非現実的になる。信頼性境界が既存のものを置き換えると、KernelUCBアルゴリズムはより優れた経験的性能、最悪のパフォーマンス保証、それに匹敵する計算コストが得られます。
論文参考訳（メタデータ） (2024-03-19T13:47:35Z)
High Confidence Level Inference is Almost Free using Parallel Stochastic Optimization [16.38026811561888]
本稿では,高効率計算と高速収束による信頼区間構築に焦点をあてた新しい推論手法を提案する。提案手法は,推定値の標準的な更新を超える最小限の計算量とメモリを必要とするため,推論処理はほとんどコストがかからない。
論文参考訳（メタデータ） (2024-01-17T17:11:45Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文参考訳（メタデータ） (2023-10-09T11:44:50Z)
Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for Martingale Mixtures [26.683757807252675]
線形バンディット問題に対する最悪の後悔の保証を施した改良アルゴリズムを提案する。我々は、我々の信頼シーケンスが、経験的にも理論的にも、競合よりも厳密であることを示す。
論文参考訳（メタデータ） (2023-09-25T17:13:46Z)
Huber-Robust Confidence Sequences [37.16361789841549]
信頼シーケンスは、逐次追跡可能な信頼区間であり、任意のデータ依存の停止時間で有効である。非逐次的設定で達成された最適幅を達成するために,結果の信頼性シーケンスが得られたことを示す。信頼シーケンスは、A/B/nテストやバンドイットで使用される一般的なツールであるため、これらの結果は、外れ値や敵の腐敗に対して堅牢なシーケンシャルな実験への扉を開く。
論文参考訳（メタデータ） (2023-01-23T17:29:26Z)
An evaluation of word-level confidence estimation for end-to-end automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討 4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文参考訳（メタデータ） (2021-01-14T09:51:59Z)
Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文参考訳（メタデータ） (2020-10-23T20:13:51Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。