Fugu-MT 論文翻訳(概要): Cramming Contextual Bandits for On-policy Statistical Evaluation

論文の概要: Cramming Contextual Bandits for On-policy Statistical Evaluation

arxiv url: http://arxiv.org/abs/2403.07031v2
Date: Tue, 15 Apr 2025 03:43:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-26 07:17:11.832174
Title: Cramming Contextual Bandits for On-policy Statistical Evaluation
Title（参考訳）: オンライン統計評価のためのクラミングコンテキスト帯域
Authors: Zeyang Jia, Kosuke Imai, Michael Lingzhi Li,
Abstract要約: 我々は,文脈的帯域幅アルゴリズムから最終学習方針を評価するための一般的な統計フレームワークとして,cram法を紹介した。クラミングは、単一のデータパスを通じてバンドレート全体のシーケンスを利用するため、統計学的および計算学的に効率的な評価がもたらされる。
参考スコア（独自算出の注目度）: 0.8192907805418583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the cram method as a general statistical framework for evaluating the final learned policy from a multi-armed contextual bandit algorithm, using the dataset generated by the same bandit algorithm. The proposed on-policy evaluation methodology differs from most existing methods that focus on off-policy performance evaluation of contextual bandit algorithms. Cramming utilizes an entire bandit sequence through a single pass of data, leading to both statistically and computationally efficient evaluation. We prove that if a bandit algorithm satisfies a certain stability condition, the resulting crammed evaluation estimator is consistent and asymptotically normal under mild regularity conditions. Furthermore, we show that this stability condition holds for commonly used linear contextual bandit algorithms, including epsilon-greedy, Thompson Sampling, and Upper Confidence Bound algorithms. Using both synthetic and publicly available datasets, we compare the empirical performance of cramming with the state-of-the-art methods. The results demonstrate that the proposed cram method reduces the evaluation standard error by approximately 40% relative to off-policy evaluation methods while preserving unbiasedness and valid confidence interval coverage.
Abstract（参考訳）: 我々は,cram法を,同じ帯域幅アルゴリズムによって生成されたデータセットを用いて,マルチアームのコンテキスト帯域幅アルゴリズムから最終学習ポリシーを評価するための一般的な統計的枠組みとして導入する。提案手法は,文脈的帯域幅アルゴリズムの性能評価に重点を置く既存の手法と異なる。クラミングは、単一のデータパスを通じてバンドレート全体のシーケンスを利用するため、統計学的および計算学的に効率的な評価がもたらされる。バンドイットアルゴリズムが一定の安定性条件を満たす場合、結果として得られるクラミド評価推定器は、穏やかな規則性条件下では一貫性があり漸近的に正規であることを示す。さらに, この安定性条件は, エプシロン・グレーディ, トンプソン・サンプリング, およびアッパー信頼境界アルゴリズムなど, 一般的に使用される線形文脈帯域幅アルゴリズムに対して成り立つことを示す。合成データセットと公開データセットの両方を用いて、クラミングの実証的な性能と最先端の手法を比較した。その結果,提案手法は,不偏性と信頼区間の有効範囲を保ちながら,非政治評価法と比較して基準誤差を約40%削減することを示した。

関連論文リスト

Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文参考訳（メタデータ） (2024-11-10T01:47:11Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。簡単なベースラインは、この評価の下で最先端のCL法より優れている。これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文参考訳（メタデータ） (2023-02-02T12:21:10Z)
Algorithms that Approximate Data Removal: New Results and Limitations [2.6905021039717987]
本研究では,経験的リスク最小化を用いて学習した機械学習モデルからユーザデータを削除することの問題点について検討する。計算とメモリ効率を両立させるオンラインアンラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-09-25T17:20:33Z)
Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文参考訳（メタデータ） (2022-06-09T10:39:33Z)
Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文参考訳（メタデータ） (2021-10-08T13:51:55Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文参考訳（メタデータ） (2021-05-23T19:21:55Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文参考訳（メタデータ） (2021-04-12T13:13:34Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Sparse PCA: Algorithms, Adversarial Perturbations and Certificates [9.348107805982604]
標準統計モデルにおけるスパースPCAの効率的なアルゴリズムについて検討する。私たちのゴールは、小さな摂動に耐性を持ちながら、最適な回復保証を達成することです。
論文参考訳（メタデータ） (2020-11-12T18:58:51Z)
Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文参考訳（メタデータ） (2020-10-23T15:22:57Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Effective Proximal Methods for Non-convex Non-smooth Regularized Learning [27.775096437736973]
独立サンプリング方式は、一般に使用されている一様サンプリング方式の性能を向上させる傾向にあることを示す。我々の新しい分析は、サンプリングの速度が今までで最高のものより速いことも示しています。
論文参考訳（メタデータ） (2020-09-14T16:41:32Z)
Confidence Interval for Off-Policy Evaluation from Dependent Samples via Bandit Algorithm: Approach from Standardized Martingales [8.807587076209566]
OPEの目的は,バンディットアルゴリズムによって生成された行動ポリシーから得られた履歴データを用いて,新しいポリシーを評価することである。バンディットアルゴリズムは過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同じ分布(すなわちd)である。 OPEのいくつかの既存の手法は、この問題を考慮に入れておらず、サンプルがi.d.であるという仮定に基づいている。
論文参考訳（メタデータ） (2020-06-12T07:48:04Z)
Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文参考訳（メタデータ） (2020-05-18T08:41:39Z)
Stacked Generalizations in Imbalanced Fraud Data Sets using Resampling Methods [2.741266294612776]
本研究では,メタあるいはスーパーラーナと呼ばれる2段階の機械学習手法を組み合わせることによって,アルゴリズムの性能向上を図る。アルゴリズムのサンプルセットのすべての置換を考慮に入れたテストハーネスを構築することは、複雑な本質的なデータ構造がすべて徹底的にテストされていることを示す。
論文参考訳（メタデータ） (2020-04-03T20:38:22Z)
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文参考訳（メタデータ） (2020-03-16T17:15:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。