論文の概要: Upper Counterfactual Confidence Bounds: a New Optimism Principle for
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2007.07876v4
- Date: Sat, 9 Mar 2024 20:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 18:14:42.996268
- Title: Upper Counterfactual Confidence Bounds: a New Optimism Principle for
Contextual Bandits
- Title(参考訳): 上位対実的信頼境界--文脈帯域に対する新しい最適化原理
- Authors: Yunbei Xu and Assaf Zeevi
- Abstract要約: UCCB(Upper Counterfactual Confidence Bounds)と呼ばれる楽観的アルゴリズムを設計するための単純で汎用的な原理を提案する。
UCCBは、UCBで行われているような行動空間ではなく、政策空間に信頼境界を構築する。
これらのアルゴリズムは、一般関数クラスや大きなコンテキスト空間を扱う上で、確実に最適であり、計算的に効率的であることを示す。
- 参考スコア(独自算出の注目度): 11.421942894219901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The principle of optimism in the face of uncertainty is one of the most
widely used and successful ideas in multi-armed bandits and reinforcement
learning. However, existing optimistic algorithms (primarily UCB and its
variants) often struggle to deal with general function classes and large
context spaces. In this paper, we study general contextual bandits with an
offline regression oracle and propose a simple, generic principle to design
optimistic algorithms, dubbed "Upper Counterfactual Confidence Bounds" (UCCB).
The key innovation of UCCB is building confidence bounds in policy space,
rather than in action space as is done in UCB. We demonstrate that these
algorithms are provably optimal and computationally efficient in handling
general function classes and large context spaces. Furthermore, we illustrate
that the UCCB principle can be seamlessly extended to infinite-action general
contextual bandits, provide the first solutions to these settings when
employing an offline regression oracle.
- Abstract(参考訳): 不確実性に直面した楽観主義の原理は、多武装の盗賊や強化学習において最も広く使われ、成功したアイデアの1つである。
しかし、既存の楽観的なアルゴリズム(主に UCB とその変種)は、一般的な関数クラスや大きなコンテキスト空間を扱うのにしばしば苦労する。
本稿では,オフライン回帰オラクルを用いた一般文脈帯域幅について検討し,"Upper Counterfactual Confidence Bounds"(UCCB)と呼ばれる楽観的アルゴリズムを設計するためのシンプルで汎用的な原理を提案する。
UCCBの鍵となる革新は、UCCBで行われているような行動空間ではなく、政策空間に信頼境界を構築することである。
これらのアルゴリズムは汎用関数クラスや大きなコンテキスト空間を扱う際に最適かつ計算効率が良いことを示す。
さらに、UCCBの原理を無限アクションの一般的な文脈的包帯にシームレスに拡張することができ、オフライン回帰オラクルを用いる場合のこれらの設定に対する最初の解決策を提供する。
関連論文リスト
- Unified theory of upper confidence bound policies for bandit problems targeting total reward, maximal reward, and more [0.8287206589886879]
上位信頼境界(UCB)ポリシは、古典的全逆バンディット問題に対する順序最適解として認識される。
以上の結果から,UCB政策は全回帰問題と最大帯域幅問題の両方において順序最適性を実現する。
改善の可能性が最も高い腕を引くことを目的としたPIUCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T03:39:33Z) - Learning via Surrogate PAC-Bayes [13.412960492870996]
PAC-Bayes学習は、学習アルゴリズムの一般化能力を研究するための包括的な設定である。
本稿では,一連の代理学習目標を最適化することで,反復学習アルゴリズムを構築するための新しい原則的戦略を提案する。
PAC-Bayes境界による学習の一般的なレシピを提供するのに加えて、(i)サロゲートの反復最適化が元の一般化境界の最適化を意味することを示す理論的結果を提供する。
論文 参考訳(メタデータ) (2024-10-14T07:45:50Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Bayesian Design Principles for Frequentist Sequential Learning [11.421942894219901]
逐次学習問題に対する頻繁な後悔を最適化する理論を開発する。
各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案する。
本稿では,マルチアームバンディットの「ベスト・オブ・オール・ワールド」な経験的性能を実現するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-01T22:17:37Z) - Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual
Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。
従来の悲観的アプローチと類似した統計的保証を得る。
我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文 参考訳(メタデータ) (2023-06-13T17:29:50Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。