論文の概要: Learning to Allocate Resources with Censored Feedback
- arxiv url: http://arxiv.org/abs/2602.06565v1
- Date: Fri, 06 Feb 2026 10:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.345111
- Title: Learning to Allocate Resources with Censored Feedback
- Title(参考訳): フィードバックによるリソースのアロケートを学習する
- Authors: Giovanni Montanari, Côme Fiegel, Corentin Pla, Aadirupa Saha, Vianney Perchet,
- Abstract要約: 我々は、検閲されたフィードバックの下で、B$の予算をK$の腕に割り当てなければならないオンラインリソース割り当て問題について検討する。
非自明なパラメータ推定と信頼境界を利用する楽観的なアルゴリズムであるRA-UCBを提案する。
そして、実世界のデータセットの実験を通して理論結果を検証する。
- 参考スコア(独自算出の注目度): 37.26445474395888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the online resource allocation problem in which at each round, a budget $B$ must be allocated across $K$ arms under censored feedback. An arm yields a reward if and only if two conditions are satisfied: (i) the arm is activated according to an arm-specific Bernoulli random variable with unknown parameter, and (ii) the allocated budget exceeds a random threshold drawn from a parametric distribution with unknown parameter. Over $T$ rounds, the learner must jointly estimate the unknown parameters and allocate the budget so as to maximize cumulative reward facing the exploration--exploitation trade-off. We prove an information-theoretic regret lower bound $Ω(T^{1/3})$, demonstrating the intrinsic difficulty of the problem. We then propose RA-UCB, an optimistic algorithm that leverages non-trivial parameter estimation and confidence bounds. When the budget $B$ is known at the beginning of each round, RA-UCB achieves a regret of order $\widetilde{\mathcal{O}}(\sqrt{T})$, and even $\mathcal{O}(\mathrm{poly}\text{-}\log T)$ under stronger assumptions. As for unknown, round dependent budget, we introduce MG-UCB, which allows within-round switching and infinitesimal allocations, and matches the regret guarantees of RA-UCB. We then validate our theoretical results through experiments on real-world datasets.
- Abstract(参考訳): 我々は、各ラウンドで、B$を検閲されたフィードバックの下で、K$の腕に割り当てなければならないオンラインリソース割り当て問題を調査する。
アームは2つの条件が満たされた場合にのみ報酬を与える。
i) 未知パラメータを持つ腕固有のベルヌーイ確率変数に従って腕が活性化され、
二 割り当てられた予算は、パラメータが未知のパラメトリック分布から引き出されたランダムしきい値を超える。
T$以上のラウンドでは、学習者は未知のパラメータを共同で見積もって予算を割り当て、探索-探索トレードオフに直面する累積報酬を最大化する必要がある。
我々は情報理論的後悔を$Ω(T^{1/3})$で証明し、問題の本質的な難しさを証明した。
次に,非自明なパラメータ推定と信頼境界を利用する楽観的アルゴリズムであるRA-UCBを提案する。
各ラウンドの始めに$B$が知られているとき、RA-UCBはより強い仮定の下で$\widetilde{\mathcal{O}}(\sqrt{T})$、さらには$\mathcal{O}(\mathrm{poly}\text{-}\log T)$の残余を達成している。
ラウンド依存型予算については、ラウンド内スイッチングと無限小割り当てが可能なMG-UCBを導入し、RA-UCBの残念な保証と一致させる。
そして、実世界のデータセットの実験を通して理論結果を検証する。
関連論文リスト
- Multiple-play Stochastic Bandits with Prioritized Arm Capacity Sharing [52.124267908936396]
このモデルは、$M$armと$K$playで構成されている。
各アームには複数の能力があり、各ユニットの能力は報酬関数に関連付けられている。
複数のプレーがアームキャパシティを競う場合、アームキャパシティは第1の優先重みで割り当てられる。
論文 参考訳(メタデータ) (2025-12-25T11:19:09Z) - Online Learning with Probing for Sequential User-Centric Selection [8.45399786458738]
そこで,学習者がまず武器のサブセットを探索して資源や報酬の副次情報を取得し,その後に$K$プレイを$M$アームに割り当てる。
既知の分布を持つオフライン設定に対しては、定数係数近似により $zeta = (e-1)/ (2e-1)$ が保証される。
未知の分布を持つオンライン・セッティングについては、OLPA(Bandit algorithm)を紹介します。
論文 参考訳(メタデータ) (2025-07-27T03:32:51Z) - Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。
線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。
本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T01:42:03Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。