論文の概要: Cramming Contextual Bandits for On-policy Statistical Evaluation
- arxiv url: http://arxiv.org/abs/2403.07031v2
- Date: Tue, 15 Apr 2025 03:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:08:30.752731
- Title: Cramming Contextual Bandits for On-policy Statistical Evaluation
- Title(参考訳): オンライン統計評価のためのクラミングコンテキスト帯域
- Authors: Zeyang Jia, Kosuke Imai, Michael Lingzhi Li,
- Abstract要約: 我々は,文脈的帯域幅アルゴリズムから最終学習方針を評価するための一般的な統計フレームワークとして,cram法を紹介した。
クラミングは、単一のデータパスを通じてバンドレート全体のシーケンスを利用するため、統計学的および計算学的に効率的な評価がもたらされる。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License:
- Abstract: We introduce the cram method as a general statistical framework for evaluating the final learned policy from a multi-armed contextual bandit algorithm, using the dataset generated by the same bandit algorithm. The proposed on-policy evaluation methodology differs from most existing methods that focus on off-policy performance evaluation of contextual bandit algorithms. Cramming utilizes an entire bandit sequence through a single pass of data, leading to both statistically and computationally efficient evaluation. We prove that if a bandit algorithm satisfies a certain stability condition, the resulting crammed evaluation estimator is consistent and asymptotically normal under mild regularity conditions. Furthermore, we show that this stability condition holds for commonly used linear contextual bandit algorithms, including epsilon-greedy, Thompson Sampling, and Upper Confidence Bound algorithms. Using both synthetic and publicly available datasets, we compare the empirical performance of cramming with the state-of-the-art methods. The results demonstrate that the proposed cram method reduces the evaluation standard error by approximately 40% relative to off-policy evaluation methods while preserving unbiasedness and valid confidence interval coverage.
- Abstract(参考訳): 我々は,cram法を,同じ帯域幅アルゴリズムによって生成されたデータセットを用いて,マルチアームのコンテキスト帯域幅アルゴリズムから最終学習ポリシーを評価するための一般的な統計的枠組みとして導入する。
提案手法は,文脈的帯域幅アルゴリズムの性能評価に重点を置く既存の手法と異なる。
クラミングは、単一のデータパスを通じてバンドレート全体のシーケンスを利用するため、統計学的および計算学的に効率的な評価がもたらされる。
バンドイットアルゴリズムが一定の安定性条件を満たす場合、結果として得られるクラミド評価推定器は、穏やかな規則性条件下では一貫性があり漸近的に正規であることを示す。
さらに, この安定性条件は, エプシロン・グレーディ, トンプソン・サンプリング, およびアッパー信頼境界アルゴリズムなど, 一般的に使用される線形文脈帯域幅アルゴリズムに対して成り立つことを示す。
合成データセットと公開データセットの両方を用いて、クラミングの実証的な性能と最先端の手法を比較した。
その結果,提案手法は,不偏性と信頼区間の有効範囲を保ちながら,非政治評価法と比較して基準誤差を約40%削減することを示した。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - Algorithms that Approximate Data Removal: New Results and Limitations [2.6905021039717987]
本研究では,経験的リスク最小化を用いて学習した機械学習モデルからユーザデータを削除することの問題点について検討する。
計算とメモリ効率を両立させるオンラインアンラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-09-25T17:20:33Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Effective Proximal Methods for Non-convex Non-smooth Regularized
Learning [27.775096437736973]
独立サンプリング方式は、一般に使用されている一様サンプリング方式の性能を向上させる傾向にあることを示す。
我々の新しい分析は、サンプリングの速度が今までで最高のものより速いことも示しています。
論文 参考訳(メタデータ) (2020-09-14T16:41:32Z) - Stacked Generalizations in Imbalanced Fraud Data Sets using Resampling
Methods [2.741266294612776]
本研究では,メタあるいはスーパーラーナと呼ばれる2段階の機械学習手法を組み合わせることによって,アルゴリズムの性能向上を図る。
アルゴリズムのサンプルセットのすべての置換を考慮に入れたテストハーネスを構築することは、複雑な本質的なデータ構造がすべて徹底的にテストされていることを示す。
論文 参考訳(メタデータ) (2020-04-03T20:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。