論文の概要: Optimal Best-Arm Identification in Bandits with Access to Offline Data
- arxiv url: http://arxiv.org/abs/2306.09048v1
- Date: Thu, 15 Jun 2023 11:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:03:25.225049
- Title: Optimal Best-Arm Identification in Bandits with Access to Offline Data
- Title(参考訳): オフラインデータにアクセスできるバンディットにおける最適最適腕識別
- Authors: Shubhada Agrawal, Sandeep Juneja, Karthikeyan Shanmugam, Arun Sai
Suggala
- Abstract要約: オフラインデータとオンライン学習を組み合わせることを検討する。
差分$が小さい場合、サンプルの複雑さに基づいて低い境界に一致するアルゴリズムを開発する。
我々のアルゴリズムは, サンプル当たりの平均取得コストが$tildeO(K)$で計算的に効率的であり, 下界問題の最適条件の注意深い評価に頼っている。
- 参考スコア(独自算出の注目度): 27.365122983434887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning paradigms based purely on offline data as well as those based solely
on sequential online learning have been well-studied in the literature. In this
paper, we consider combining offline data with online learning, an area less
studied but of obvious practical importance. We consider the stochastic
$K$-armed bandit problem, where our goal is to identify the arm with the
highest mean in the presence of relevant offline data, with confidence
$1-\delta$. We conduct a lower bound analysis on policies that provide such
$1-\delta$ probabilistic correctness guarantees. We develop algorithms that
match the lower bound on sample complexity when $\delta$ is small. Our
algorithms are computationally efficient with an average per-sample acquisition
cost of $\tilde{O}(K)$, and rely on a careful characterization of the
optimality conditions of the lower bound problem.
- Abstract(参考訳): オフラインデータに基づく学習パラダイムと、逐次オンライン学習のみに基づく学習パラダイムは、文献でよく研究されている。
本稿では,オフラインデータとオンライン学習を組み合わせることを検討する。
私たちは、確率的なk$-armed bandit問題を考える。私たちの目標は、オフラインデータの存在下でarmを最も高い平均値で識別することであり、信頼度は1-\delta$である。
このような1-\delta$確率的正当性保証を提供するポリシーについて、下限の分析を行う。
我々は$\delta$ が小さい場合、サンプル複雑性の下限に合致するアルゴリズムを開発する。
我々のアルゴリズムは平均的なサンプル当たりの取得コストが$\tilde{O}(K)$で計算的に効率的であり、低い境界問題の最適条件の注意深い評価に頼っている。
関連論文リスト
- Stabilizing Linear Passive-Aggressive Online Learning with Weighted Reservoir Sampling [46.01254613933967]
オンライン学習手法は、高次元ストリーミングデータ、アウトオブコア処理、その他のスループットに敏感なアプリケーションに依然として有効である。
このようなアルゴリズムの多くは、その収束の鍵として個々のエラーへの高速な適応に依存している。
このようなアルゴリズムは理論上の後悔は少ないが、現実の展開では個々の外れ値に敏感であり、アルゴリズムが過度に修正される可能性がある。
論文 参考訳(メタデータ) (2024-10-31T03:35:48Z) - Leveraging Offline Data in Linear Latent Bandits [16.006405951752903]
我々は、$textitevery$ exchangeable and coherent stateless decision process is a latent bandit.
本稿では,この部分空間を短いオフライン軌道から保証付きで学習する方法を提案する。
LOCAL-UCBとProBALL-UCBの2つの方法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:23:34Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Efficient Online Learning with Offline Datasets for Infinite Horizon
MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。
次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T19:01:08Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Smoothed Online Learning is as Easy as Statistical Learning [77.00766067963195]
この設定では、最初のオラクル効率、非回帰アルゴリズムを提供する。
古典的な設定で関数クラスが学習可能な場合、文脈的包帯に対するオラクル効率のよい非回帰アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2022-02-09T19:22:34Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。