論文の概要: Combinatorial Multi-armed Bandits for Resource Allocation
- arxiv url: http://arxiv.org/abs/2105.04373v1
- Date: Mon, 10 May 2021 13:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:14:46.364880
- Title: Combinatorial Multi-armed Bandits for Resource Allocation
- Title(参考訳): 資源配分のための組合せ多腕バンディット
- Authors: Jinhang Zuo, Carlee Joe-Wong
- Abstract要約: モチベーションの例としては、限られたコンピューティング時間や無線スペクトル帯域を複数のユーザに割り当てることが挙げられる。
意思決定者は、各ユーザの報酬に対するフィードバックから、各ユーザに割り当てられたリソースの価値を学習すべきである。
- 参考スコア(独自算出の注目度): 23.869080705146395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sequential resource allocation problem where a decision maker
repeatedly allocates budgets between resources. Motivating examples include
allocating limited computing time or wireless spectrum bands to multiple users
(i.e., resources). At each timestep, the decision maker should distribute its
available budgets among different resources to maximize the expected reward, or
equivalently to minimize the cumulative regret. In doing so, the decision maker
should learn the value of the resources allocated for each user from feedback
on each user's received reward. For example, users may send messages of
different urgency over wireless spectrum bands; the reward generated by
allocating spectrum to a user then depends on the message's urgency. We assume
each user's reward follows a random process that is initially unknown. We
design combinatorial multi-armed bandit algorithms to solve this problem with
discrete or continuous budgets. We prove the proposed algorithms achieve
logarithmic regrets under semi-bandit feedback.
- Abstract(参考訳): 意思決定者がリソース間で予算を割当する逐次的資源割当問題について検討する。
モチベーションの例としては、限られたコンピューティング時間や無線スペクトル帯域を複数のユーザ(すなわちリソース)に割り当てることがある。
各段階において、意思決定者は利用可能な予算を様々なリソースに分配し、期待される報酬を最大化する。
意思決定者は、各ユーザの報酬に対するフィードバックから、各ユーザに割り当てられたリソースの価値を学習すべきである。
例えば、ユーザは無線スペクトル帯域上で異なる緊急性のメッセージを送信し、スペクトルをユーザに割り当てることで発生する報酬は、メッセージの緊急性に依存する。
各ユーザの報酬は、当初未知のランダムなプロセスに従うと仮定する。
我々は,この問題を離散的あるいは連続的な予算で解くために,コンビネート型多武装バンディットアルゴリズムを設計する。
提案アルゴリズムは半帯域フィードバックの下で対数的後悔を実現する。
関連論文リスト
- Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Adversarial Bandits with Multi-User Delayed Feedback: Theory and
Application [17.64363983613468]
我々は,マルチユーザ遅延フィードバックを用いた逆MAB問題を定式化し,修正されたEXP3アルゴリズム MUD-EXP3 を設計する。
本稿では,複数のユーザからの遅延フィードバック結果について考察し,内部分布に制限を加えることなく検討する。
論文 参考訳(メタデータ) (2023-10-17T12:08:15Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions [54.25616645675032]
アルゴリズムが受信したフィードバックにランダムな遅延を伴うマルチアーマッド・バンドイット(MAB)問題について検討する。
報酬非依存の遅延設定は、報酬非依存の遅延設定と、報酬非依存の遅延設定に依存する可能性がある。
私たちの主な貢献は、それぞれの設定でほぼ最適に後悔するアルゴリズムです。
論文 参考訳(メタデータ) (2021-06-04T12:26:06Z) - Censored Semi-Bandits for Resource Allocation [12.450488894967773]
我々は、検閲された半バンド構成でリソースを順次割り当てる問題を考える。
損失は2つの隠れたパラメータに依存する。1つはarmに固有のが、リソース割り当てには依存せず、もう1つは割り当てられたリソースに依存する。
MP-MABおよびCombinial Semi-Banditsの既知のアルゴリズムを使用して、問題設定に最適なアルゴリズムを導き出します。
論文 参考訳(メタデータ) (2021-04-12T19:15:32Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Dynamic Spectrum Access using Stochastic Multi-User Bandits [23.129398025477204]
提案アルゴリズムは推定フェーズと割り当てフェーズから構成される。
各ユーザがアルゴリズムを採用すると、システム全体の後悔は1時間当たり$O(log T)$のオーダー最適値であることが示される。
このアルゴリズムは、システムのユーザ数が時間とともに進化する動的ケースに拡張され、サブ線形後悔につながることが示されている。
論文 参考訳(メタデータ) (2021-01-12T10:29:57Z) - Multi-Armed Bandits with Censored Consumption of Resources [9.803834317538747]
我々は、古典的マルチアームバンディット問題のリソース対応版を考える。
各ラウンドで、学習者はアームを選択し、リソース制限を決定する。
その後、使用済みリソースの(ランダム)量が限界以下である場合、対応する(ランダム)報酬を観測する。
論文 参考訳(メタデータ) (2020-11-02T08:27:38Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。