論文の概要: Optimal Data Driven Resource Allocation under Multi-Armed Bandit Observations
- arxiv url: http://arxiv.org/abs/1811.12852v3
- Date: Thu, 12 Sep 2024 15:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-15 16:28:34.520922
- Title: Optimal Data Driven Resource Allocation under Multi-Armed Bandit Observations
- Title(参考訳): 多要素帯域観測による最適データ駆動資源配分
- Authors: Apostolos N. Burnetas, Odysseas Kanavetas, Michael N. Katehakis,
- Abstract要約: 本稿では,多武装バンディット(MAB)モデルについて,制約条件下での第一に最適戦略を提案する。
主な成果は、一様に高速な政策を犯した後悔に対する低い境界の導出である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the first asymptotically optimal strategy for a multi armed bandit (MAB) model under side constraints. The side constraints model situations in which bandit activations are limited by the availability of certain resources that are replenished at a constant rate. The main result involves the derivation of an asymptotic lower bound for the regret of feasible uniformly fast policies and the construction of policies that achieve this lower bound, under pertinent conditions. Further, we provide the explicit form of such policies for the case in which the unknown distributions are Normal with unknown means and known variances, for the case of Normal distributions with unknown means and unknown variances and for the case of arbitrary discrete distributions with finite support.
- Abstract(参考訳): 本稿では,多武装バンディット(MAB)モデルに対する側方制約下での漸近的最適戦略について紹介する。
サイド制約は、一定の速度で補充された特定の資源の可用性によって、バンドイットのアクティベーションが制限される状況をモデル化する。
主な結果は、一様に高速な政策を後悔する漸近的な下限の導出と、関連する条件下で、この下限を達成する政策の構築である。
さらに、未知の分布が未知の手段と未知の分散を持つ正規分布である場合、未知の手段と未知の分散を持つ正規分布の場合、有限な支持を持つ任意の離散分布に対して、そのようなポリシーの明示的な形式を提供する。
関連論文リスト
- Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Generative Modelling of Stochastic Actions with Arbitrary Constraints in
Reinforcement Learning [25.342811509665097]
強化学習(RL)における多くの問題は、大きな離散多次元かつ非順序の作用空間を持つ最適ポリシーを求める。
この設定の課題は、下層の作用空間が分類的(離散的かつ非順序的)で大きいことである。
本研究では,(状態)条件正規化フローを適用して,ポリシーをコンパクトに表現することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-26T15:57:20Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。
我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文 参考訳(メタデータ) (2022-10-12T12:49:20Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - On the Sample Complexity of Privately Learning Unbounded
High-Dimensional Gaussians [13.517767928653443]
これらは、分布のパラメータに制限を課さない一般ガウス群に対する最初の有限標本上界である。
技術的な観点からは、この空間の局所被覆からグローバルな「局所的に小さい」被覆の存在を論じる分析ツールを提供する。
我々の手法は、有限被覆を持たない他の分布クラスをプライベートに学習するのに有用である。
論文 参考訳(メタデータ) (2020-10-19T23:55:03Z) - The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。
我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。
IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文 参考訳(メタデータ) (2020-10-12T14:54:32Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Lower bounds in multiple testing: A framework based on derandomized
proxies [107.69746750639584]
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。
これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。
論文 参考訳(メタデータ) (2020-05-07T19:59:51Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。