論文の概要: The Impact of Batch Learning in Stochastic Linear Bandits
- arxiv url: http://arxiv.org/abs/2202.06657v1
- Date: Mon, 14 Feb 2022 12:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 23:45:59.939829
- Title: The Impact of Batch Learning in Stochastic Linear Bandits
- Title(参考訳): 確率的線形バンディットにおけるバッチ学習の影響
- Authors: Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, Maurits Kaptein
- Abstract要約: 本稿では,特定の期間にエージェントが応答のバッチを観察する,バッチ化バンドイットと呼ばれるバンディット問題の特殊な事例について考察する。
本研究の主な理論的結果は,バッチ学習の効果がオンライン行動の後悔に比例して測定できることを示唆している。
- 参考スコア(独自算出の注目度): 7.3449418475577595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a special case of bandit problems, named batched bandits, in
which an agent observes batches of responses over a certain time period. Unlike
previous work, we consider a practically relevant batch-centric scenario of
batch learning. That is to say, we provide a policy-agnostic regret analysis
and demonstrate upper and lower bounds for the regret of a candidate policy.
Our main theoretical results show that the impact of batch learning can be
measured proportional to the regret of online behavior. Primarily, we study two
settings of the problem: instance-independent and instance-dependent. While the
upper bound is the same for both settings, the worst-case lower bound is more
comprehensive in the former case and more accurate in the latter one. Also, we
provide a more robust result for the 2-armed bandit problem as an important
insight. Finally, we demonstrate the consistency of theoretical results by
conducting empirical experiments and reflect on the optimal batch size choice.
- Abstract(参考訳): 我々は,ある期間にエージェントが応答のバッチを観測する,バッチバンディット( batched bandits)という,特殊なバンディット問題を考える。
従来の作業とは異なり、バッチ学習の実質的に関連するバッチ中心のシナリオを検討する。
つまり、我々は、政策非依存の後悔分析を提供し、候補者政策の後悔に対する上下限を実証する。
本研究の主な理論的結果は,バッチ学習の効果がオンライン行動の後悔に比例して測定できることである。
主に、インスタンス非依存とインスタンス依存の2つの問題について検討する。
上限は両方の設定で同じであるが、最悪の場合の下限は前の場合より包括的であり、後者の場合より正確である。
また、2本腕のバンディット問題に対するより堅牢な結果も重要な知見である。
最後に,実験を行い,最適なバッチサイズ選択を反映することにより,理論結果の一貫性を示す。
関連論文リスト
- Causal Contextual Bandits with Adaptive Context [12.205797997133397]
本研究では,学習者が選択した初期介入に基づいて,文脈が選択される因果的文脈包帯の変種について検討する。
私たちは、私たちの単純な後悔が、多くのインスタンスに対して本質的にきついことを証明しています。
論文 参考訳(メタデータ) (2024-05-28T22:17:57Z) - Thompson Sampling in Partially Observable Contextual Bandits [2.465689259704613]
我々は、観測データに基づいて最適な腕を選択することを学ぶための盗賊政策について研究する。
我々の理論的分析は、トンプソンサンプリング政策が探索と搾取のバランスをうまくとれることを示している。
これらの技術は、文脈情報や部分的な観察とともに、他の意思決定問題の研究への道を開く。
論文 参考訳(メタデータ) (2024-02-15T19:37:39Z) - On Penalization in Stochastic Multi-armed Bandits [22.04356596828437]
本稿では,マルチアーム・バンディット(MAB)問題の重要な変種について検討し,ペナルティ化を考慮に入れた。
フェアネス、ほぼ最適の後悔、報酬とフェアネスのトレードオフの改善など、多くのメリットを享受する難解なUPBライクなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T17:13:09Z) - Batched Dueling Bandits [13.69077222007053]
そこで本研究では,2つの標準設定条件下で,K$アームのデュエルバンディット問題について検討した。
バッチ数と後悔数のトレードオフを円滑に行うアルゴリズムを得る。
論文 参考訳(メタデータ) (2022-02-22T04:02:36Z) - The Impact of Batch Learning in Stochastic Bandits [5.008064542274928]
バンディット問題、すなわちバッチ化バンディットの特殊な場合を考える。
推薦システムやeコマースプラットフォームの自然な制限により、学習エージェントは一定期間にわたってグループでバッチされた応答を観察する。
政策非依存の後悔分析を行い、候補者政策の後悔に対する上下限を実証する。
論文 参考訳(メタデータ) (2021-11-03T08:38:10Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Predictive Bandits [68.8204255655161]
我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
論文 参考訳(メタデータ) (2020-04-02T17:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。