論文の概要: The Impact of Batch Learning in Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2111.02071v1
- Date: Wed, 3 Nov 2021 08:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:41:52.939132
- Title: The Impact of Batch Learning in Stochastic Bandits
- Title(参考訳): 確率的バンディットにおけるバッチ学習の影響
- Authors: Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, and Maurits Kaptein
- Abstract要約: バンディット問題、すなわちバッチ化バンディットの特殊な場合を考える。
推薦システムやeコマースプラットフォームの自然な制限により、学習エージェントは一定期間にわたってグループでバッチされた応答を観察する。
政策非依存の後悔分析を行い、候補者政策の後悔に対する上下限を実証する。
- 参考スコア(独自算出の注目度): 5.008064542274928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a special case of bandit problems, namely batched bandits.
Motivated by natural restrictions of recommender systems and e-commerce
platforms, we assume that a learning agent observes responses batched in groups
over a certain time period. Unlike previous work, we consider a more
practically relevant batch-centric scenario of batch learning. We provide a
policy-agnostic regret analysis and demonstrate upper and lower bounds for the
regret of a candidate policy. Our main theoretical results show that the impact
of batch learning can be measured in terms of online behavior. Finally, we
demonstrate the consistency of theoretical results by conducting empirical
experiments and reflect on the optimal batch size choice.
- Abstract(参考訳): 我々は,バンディット問題,すなわちバッチバンディットの特殊な場合を考える。
推薦システムやeコマースプラットフォームの自然な制限により、学習エージェントは一定期間にわたってグループでバッチされた応答を観察する。
従来の作業とは異なり、バッチ学習のより効果的なバッチ中心のシナリオを考えます。
我々は、政策非依存の後悔分析を行い、候補者政策の後悔に対する上限を上下に示す。
本研究の主な理論的結果は,バッチ学習の効果をオンライン行動の観点から測定できることである。
最後に,実験を行い,最適なバッチサイズ選択を反映することにより,理論結果の一貫性を示す。
関連論文リスト
- On the Value of Stochastic Side Information in Online Learning [3.4788711710826083]
決定論的オンライン学習シナリオにおけるサイド情報の有効性について検討する。
特定の側面情報は予測者には提供できるが、専門家には提供されないと仮定する。
論文 参考訳(メタデータ) (2023-03-09T15:06:07Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - The Impact of Batch Learning in Stochastic Linear Bandits [7.3449418475577595]
本稿では,特定の期間にエージェントが応答のバッチを観察する,バッチ化バンドイットと呼ばれるバンディット問題の特殊な事例について考察する。
本研究の主な理論的結果は,バッチ学習の効果がオンライン行動の後悔に比例して測定できることを示唆している。
論文 参考訳(メタデータ) (2022-02-14T12:27:06Z) - Achieving Minimax Rates in Pool-Based Batch Active Learning [26.12124106759262]
本稿では,学習者がラベル付けオラクルへのポイントのバッチを適応的に発行する,バッチアクティブな学習シナリオについて考察する。
本稿では,問合せ点の情報性と,その多様性との間に注意深いトレードオフを必要とする解を提案する。
論文 参考訳(メタデータ) (2022-02-11T04:55:45Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Learning by Repetition: Stochastic Multi-armed Bandits under Priming
Effect [2.5966580648312223]
マルチアーム・バンディット・セッティングにおけるエンゲージメントの持続性が学習に及ぼす影響について検討した。
時間におけるサブ線形後悔と関連する摩耗/摩耗パラメータを実現する新しいアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-06-18T08:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。