論文の概要: Censored Semi-Bandits for Resource Allocation
- arxiv url: http://arxiv.org/abs/2104.05781v1
- Date: Mon, 12 Apr 2021 19:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 03:57:47.303580
- Title: Censored Semi-Bandits for Resource Allocation
- Title(参考訳): 資源配分のための補償半帯域
- Authors: Arun Verma, Manjesh K. Hanawal, Arun Rajkumar, Raman Sankaran
- Abstract要約: 我々は、検閲された半バンド構成でリソースを順次割り当てる問題を考える。
損失は2つの隠れたパラメータに依存する。1つはarmに固有のが、リソース割り当てには依存せず、もう1つは割り当てられたリソースに依存する。
MP-MABおよびCombinial Semi-Banditsの既知のアルゴリズムを使用して、問題設定に最適なアルゴリズムを導き出します。
- 参考スコア(独自算出の注目度): 12.450488894967773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of sequentially allocating resources in a censored
semi-bandits setup, where the learner allocates resources at each step to the
arms and observes loss. The loss depends on two hidden parameters, one specific
to the arm but independent of the resource allocation, and the other depends on
the allocated resource. More specifically, the loss equals zero for an arm if
the resource allocated to it exceeds a constant (but unknown) arm dependent
threshold. The goal is to learn a resource allocation that minimizes the
expected loss. The problem is challenging because the loss distribution and
threshold value of each arm are unknown. We study this setting by establishing
its `equivalence' to Multiple-Play Multi-Armed Bandits (MP-MAB) and
Combinatorial Semi-Bandits. Exploiting these equivalences, we derive optimal
algorithms for our problem setting using known algorithms for MP-MAB and
Combinatorial Semi-Bandits. The experiments on synthetically generated data
validate the performance guarantees of the proposed algorithms.
- Abstract(参考訳): 本稿では,各ステップのリソースをアームに割り当て,損失を観測する,検閲されたセミバンド構成における資源の逐次割当の問題について考察する。
損失は2つの隠れたパラメータに依存する。1つはarmに固有のが、リソース割り当てには依存せず、もう1つは割り当てられたリソースに依存する。
より具体的には、割り当てられたリソースが一定の(しかし未知の)arm依存しきい値を超えると、arm の損失は 0 となる。
目標は、期待される損失を最小限に抑えるリソース割り当てを学ぶことです。
問題は各アームの損失分布としきい値が不明であるためである。
我々は,MP-MAB(Multiple-Play Multi-Armed Bandits)と Combinatorial Semi-Banditsの「等価」を確立することで,この設定について検討する。
本稿では,MP-MAB と Combinatorial Semi-Bandits の既知のアルゴリズムを用いて,これらの等価性を探索する。
合成生成データに関する実験は,提案アルゴリズムの性能保証を検証する。
関連論文リスト
- Best Arm Identification with Resource Constraints [6.236743421605786]
資源制約付きベストアーム識別(BAIwRC)問題について検討する。
エージェントは、各アームプルにリソースが消費されるリソース制約の下で、最適なアームを特定することを目的としている。
資源集約アルゴリズム(SH-RR)を設計・解析する。
論文 参考訳(メタデータ) (2024-02-29T12:17:54Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Combinatorial Multi-armed Bandits for Resource Allocation [23.869080705146395]
モチベーションの例としては、限られたコンピューティング時間や無線スペクトル帯域を複数のユーザに割り当てることが挙げられる。
意思決定者は、各ユーザの報酬に対するフィードバックから、各ユーザに割り当てられたリソースの価値を学習すべきである。
論文 参考訳(メタデータ) (2021-05-10T13:55:30Z) - Multi-Armed Bandits with Censored Consumption of Resources [9.803834317538747]
我々は、古典的マルチアームバンディット問題のリソース対応版を考える。
各ラウンドで、学習者はアームを選択し、リソース制限を決定する。
その後、使用済みリソースの(ランダム)量が限界以下である場合、対応する(ランダム)報酬を観測する。
論文 参考訳(メタデータ) (2020-11-02T08:27:38Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed
Bandits [4.760079434948198]
このようなパラメトリック情報を利用する特殊なアルゴリズムは、パラメータが誤って特定された場合、不整合学習性能が高いことを示す。
主な貢献は, (i) 固定予算純探索条件下で統計的に堅牢なMABアルゴリズムの基本的な性能限界を確立すること, (ii) 二つの近似アルゴリズムのクラスを提案することである。
論文 参考訳(メタデータ) (2020-08-28T13:43:12Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。