論文の概要: Robust Batched Bandits
- arxiv url: http://arxiv.org/abs/2510.03798v1
- Date: Sat, 04 Oct 2025 12:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.25843
- Title: Robust Batched Bandits
- Title(参考訳): ロバストバッチバンド
- Authors: Yunwen Guo, Yunlun Shu, Gongyi Zhuo, Tianyu Wang,
- Abstract要約: バッチ・マルチアーム・バンディット(MAB)問題は臨床試験のような応用には不可欠である。
本稿では,重み付き報酬に対するロバストなバッチバンディットアルゴリズムを提案することにより,ギャップを埋める。
- 参考スコア(独自算出の注目度): 4.944889182412946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The batched multi-armed bandit (MAB) problem, in which rewards are collected in batches, is crucial for applications such as clinical trials. Existing research predominantly assumes light-tailed reward distributions, yet many real-world scenarios, including clinical outcomes, exhibit heavy-tailed characteristics. This paper bridges this gap by proposing robust batched bandit algorithms designed for heavy-tailed rewards, within both finite-arm and Lipschitz-continuous settings. We reveal a surprising phenomenon: in the instance-independent regime, as well as in the Lipschitz setting, heavier-tailed rewards necessitate a smaller number of batches to achieve near-optimal regret. In stark contrast, for the instance-dependent setting, the required number of batches to attain near-optimal regret remains invariant with respect to tail heaviness.
- Abstract(参考訳): バッチ化されたマルチアームバンディット(MAB)問題では、臨床試験などの応用において、報酬がバッチで収集される。
現存する研究は、主に軽微な報酬分布を前提としているが、臨床結果を含む現実のシナリオの多くは、重微な特徴を示している。
本稿では,有限アームとリプシッツ連続設定の両方において,重み付き報酬のために設計された頑健なバッチ帯域幅アルゴリズムを提案することにより,このギャップを埋める。
インスタンスに依存しない体制では、リプシッツの設定と同様に、より重い報酬は、ほぼ最適の後悔を達成するために、少数のバッチを必要とする。
対照的に、インスタンスに依存した設定では、最適に近い後悔を達成するために必要なバッチの数は、尾の重みに関して不変である。
関連論文リスト
- Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - On Penalization in Stochastic Multi-armed Bandits [22.04356596828437]
本稿では,マルチアーム・バンディット(MAB)問題の重要な変種について検討し,ペナルティ化を考慮に入れた。
フェアネス、ほぼ最適の後悔、報酬とフェアネスのトレードオフの改善など、多くのメリットを享受する難解なUPBライクなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T17:13:09Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Diversity-Preserving K-Armed Bandits, Revisited [16.51188853478056]
本稿では,Celisらによって導入された多様性保全レコメンデーションのための,バンディットに基づくフレームワークについて考察する。
設定の具体的構造を用いて UCB アルゴリズムを設計し,自然の場合の分布依存的後悔を楽しむことを示す。
論文 参考訳(メタデータ) (2020-10-05T09:22:31Z) - Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。