論文の概要: Stochastic Multi-Armed Bandits with Limited Control Variates
- arxiv url: http://arxiv.org/abs/2603.02100v1
- Date: Mon, 02 Mar 2026 17:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.004736
- Title: Stochastic Multi-Armed Bandits with Limited Control Variates
- Title(参考訳): 限られた制御変数を持つ確率的多関節帯域
- Authors: Arun Verma, Manjesh Kumar Hanawal, Arun Rajkumar,
- Abstract要約: 私たちは、干渉やチャネル状態の見積がスループットに関する部分的な洞察を提供する無線ネットワークによって動機付けられています。
本稿では,学習者が補助情報に限られたアクセス権を持つ古典的マルチアームバンディット問題の変種について検討する。
- 参考スコア(独自算出の注目度): 15.867573467164123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by wireless networks where interference or channel state estimates provide partial insight into throughput, we study a variant of the classical stochastic multi-armed bandit problem in which the learner has limited access to auxiliary information. Recent work has shown that such auxiliary information, when available as control variates, can be used to get tighter confidence bounds, leading to lower regret. However, existing works assume that control variates are available in every round, which may not be realistic in several real-life scenarios. To address this, we propose UCB-LCV, an upper confidence bound (UCB) based algorithm that effectively combines the estimators obtained from rewards and control variates. When there is no control variate, UCB-LCV leads to a novel algorithm that we call UCB-NORMAL, outperforming its existing algorithms for the standard MAB setting with normally distributed rewards. Finally, we discuss variants of the proposed UCB-LCV that apply to general distributions and experimentally demonstrate that UCB-LCV outperforms existing bandit algorithms.
- Abstract(参考訳): 干渉やチャネル状態の見積がスループットに関する部分的な洞察を与える無線ネットワークによって動機付けされ、学習者が補助情報にアクセスできない古典的確率的マルチアームバンディット問題(英語版)の変種について研究する。
近年の研究では、このような補助情報が制御変数として利用可能であれば、より厳密な信頼境界を得るために使用できることが示されており、後悔は少なくなっている。
しかし、既存の研究は、制御変数が全てのラウンドで利用可能であり、現実的なシナリオでは現実的ではないと仮定している。
そこで本研究では,報酬から得られる推定値と制御変数を効果的に組み合わせ,上位信頼度境界(UCB)に基づくアルゴリズムであるUCB-LCVを提案する。
制御変数がない場合、UCB-LCVはUCB-NORMALと呼ばれる新しいアルゴリズムを導き、通常分散された報酬を持つ標準MAB設定において、既存のアルゴリズムよりも優れている。
最後に、一般分布に適用可能なUCB-LCVの変種について論じ、UCB-LCVが既存のバンディットアルゴリズムより優れていることを実験的に実証する。
関連論文リスト
- Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Using causal abstractions to accelerate decision-making in complex bandit problems [4.09922517136932]
本稿では,様々な抽象レベルで定義されたCMAB問題インスタンス間の共有情報を効率的に活用するアルゴリズムAT-UCBを提案する。
我々は,AT-UCBの利点を理論的に説明し,累積的後悔に対する新たな上限を通じて,様々な解像度と計算コストを持つ疫学シミュレータにAT-UCBを適用して実証的に説明する。
論文 参考訳(メタデータ) (2025-09-04T15:11:04Z) - Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Stability-penalty-adaptive follow-the-regularized-leader: Sparsity,
game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。
我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文 参考訳(メタデータ) (2023-05-26T23:20:48Z) - Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。
まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。
次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:09:39Z) - Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of
Information Selection [0.0]
CMAB(Contextual Multi-armed bandits)は、ユーザの関心に応じて情報のフィルタリングと優先順位付けを学習するために広く使用されている。
本研究は,トップKアームを反復的に選択して報酬を最大化するCMABフレームワークに基づくトップKランキングの分析である。
本稿では,Deep Up Confidence Bound (UCB)アルゴリズムという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-08T13:32:14Z) - Tuning Confidence Bound for Stochastic Bandits with Bandit Distance [5.818764911456228]
標準 UCB の「距離チューニング」は,提案した距離尺度を用いて行う。
探検バルゲインポイント」は、探検と搾取のトレードオフに関する洞察を与える。
論文 参考訳(メタデータ) (2021-10-06T12:24:07Z) - Stochastic Multi-Armed Bandits with Control Variates [6.548580592686076]
我々は、学習者が腕に関する補助情報にアクセスできるマルチアーム盗聴問題の新しい変種を研究します。
補助情報は腕の報酬と相関しています。
我々は,推定精度を向上させるアルゴリズムucb-cvを開発した。
論文 参考訳(メタデータ) (2021-05-09T15:40:09Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。