論文の概要: Multi-Armed Bandits with Censored Consumption of Resources
- arxiv url: http://arxiv.org/abs/2011.00813v1
- Date: Mon, 2 Nov 2020 08:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:12:17.709815
- Title: Multi-Armed Bandits with Censored Consumption of Resources
- Title(参考訳): 資源を検閲したマルチアームバンディット
- Authors: Viktor Bengs and Eyke H\"ullermeier
- Abstract要約: 我々は、古典的マルチアームバンディット問題のリソース対応版を考える。
各ラウンドで、学習者はアームを選択し、リソース制限を決定する。
その後、使用済みリソースの(ランダム)量が限界以下である場合、対応する(ランダム)報酬を観測する。
- 参考スコア(独自算出の注目度): 9.803834317538747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a resource-aware variant of the classical multi-armed bandit
problem: In each round, the learner selects an arm and determines a resource
limit. It then observes a corresponding (random) reward, provided the (random)
amount of consumed resources remains below the limit. Otherwise, the
observation is censored, i.e., no reward is obtained. For this problem setting,
we introduce a measure of regret, which incorporates the actual amount of
allocated resources of each learning round as well as the optimality of
realizable rewards. Thus, to minimize regret, the learner needs to set a
resource limit and choose an arm in such a way that the chance to realize a
high reward within the predefined resource limit is high, while the resource
limit itself should be kept as low as possible. We derive the theoretical lower
bound on the cumulative regret and propose a learning algorithm having a regret
upper bound that matches the lower bound. In a simulation study, we show that
our learning algorithm outperforms straightforward extensions of standard
multi-armed bandit algorithms.
- Abstract(参考訳): 各ラウンドにおいて、学習者はarmを選択し、リソース制限を決定する。
その後、使用済みリソースの(ランダム)量が限界以下である場合、対応する(ランダム)報酬を観測する。
さもなくば、観察は検閲され、すなわち報酬は得られない。
そこで本研究では,各学習ラウンドの割り当てリソースの実際の量と,実現可能な報酬の最適性を考慮した後悔の尺度を提案する。
したがって、後悔を最小限に抑えるために、学習者はリソース制限を設定して、予め定義されたリソース制限内で高い報酬を実現するチャンスが高く、リソース制限自体を可能な限り低くしておく必要がある。
我々は、累積的後悔の理論的下限を導出し、下限に一致する後悔の上限を持つ学習アルゴリズムを提案する。
シミュレーション研究により,本学習アルゴリズムは,標準的なマルチアームバンディットアルゴリズムの単純な拡張よりも優れていることを示す。
関連論文リスト
- Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Clustered Linear Contextual Bandits with Knapsacks [9.668078830796999]
本研究では,クラスタ固有の線形モデルの帰結として,報酬と資源消費が帰結するクラスタ化されたコンテキスト帯について検討する。
一定期間に腕を引っ張ると、複数のリソースのそれぞれに対して報酬と消費が生じる。
ランダムに選択された腕の部分集合に1回だけクラスタリングを実行するだけで十分であることを示す。
論文 参考訳(メタデータ) (2023-08-21T13:47:13Z) - Solving Multi-Arm Bandit Using a Few Bits of Communication [42.13277217013971]
マルチアームバンディット問題(マルチアームバンディット問題、MAB)は、報酬を逐次観察することで、一連のアクションの中からベストを選択することを目的とした、アクティブな学習フレームワークである。
分散エージェントが収集した報酬の通信を最適化することで,コミュニケーション問題に対処する。
汎用的な報酬量子化アルゴリズムQuBanを構築し、任意の(非回帰的な)MABアルゴリズムの上に適用して、新しい通信効率の対物を形成する。
論文 参考訳(メタデータ) (2021-11-11T06:23:16Z) - Combinatorial Multi-armed Bandits for Resource Allocation [23.869080705146395]
モチベーションの例としては、限られたコンピューティング時間や無線スペクトル帯域を複数のユーザに割り当てることが挙げられる。
意思決定者は、各ユーザの報酬に対するフィードバックから、各ユーザに割り当てられたリソースの価値を学習すべきである。
論文 参考訳(メタデータ) (2021-05-10T13:55:30Z) - Censored Semi-Bandits for Resource Allocation [12.450488894967773]
我々は、検閲された半バンド構成でリソースを順次割り当てる問題を考える。
損失は2つの隠れたパラメータに依存する。1つはarmに固有のが、リソース割り当てには依存せず、もう1つは割り当てられたリソースに依存する。
MP-MABおよびCombinial Semi-Banditsの既知のアルゴリズムを使用して、問題設定に最適なアルゴリズムを導き出します。
論文 参考訳(メタデータ) (2021-04-12T19:15:32Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。