Fugu-MT 論文翻訳(概要): Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget

論文の概要: Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget

arxiv url: http://arxiv.org/abs/2211.14768v1
Date: Sun, 27 Nov 2022 08:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 16:16:37.166292
Title: Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget
Title（参考訳）: 固定予算の制約付き純粋探査型多武装バンディット
Authors: Fathima Zarin Faizal, Jayakrishnan Nair
Abstract要約: 固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
参考スコア（独自算出の注目度）: 4.226118870861363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a constrained, pure exploration, stochastic multi-armed bandit formulation under a fixed budget. Each arm is associated with an unknown, possibly multi-dimensional distribution and is described by multiple attributes that are a function of this distribution. The aim is to optimize a particular attribute subject to user-defined constraints on the other attributes. This framework models applications such as financial portfolio optimization, where it is natural to perform risk-constrained maximization of mean return. We assume that the attributes can be estimated using samples from the arms' distributions and that these estimators satisfy suitable concentration inequalities. We propose an algorithm called \textsc{Constrained-SR} based on the Successive Rejects framework, which recommends an optimal arm and flags the instance as being feasible or infeasible. A key feature of this algorithm is that it is designed on the basis of an information theoretic lower bound for two-armed instances. We characterize an instance-dependent upper bound on the probability of error under \textsc{Constrained-SR}, that decays exponentially with respect to the budget. We further show that the associated decay rate is nearly optimal relative to an information theoretic lower bound in certain special cases.
Abstract（参考訳）: 固定予算の下で、制約のある純粋な探索、確率的マルチアームバンディットの定式化を検討する。各アームは未知の多次元分布と関連付けられ、この分布の関数である複数の属性によって記述される。その目的は、ユーザが定義した他の属性の制約に従う特定の属性を最適化することである。このフレームワークは、リスクに制約された平均戻り値の最大化を実行するのが自然である金融ポートフォリオ最適化のようなアプリケーションをモデル化する。これらの属性は腕の分布のサンプルを用いて推定でき、これらの推定器は適切な濃度不等式を満たすと仮定する。本稿では,Successive Rejects フレームワークをベースとした \textsc{Constrained-SR} というアルゴリズムを提案する。このアルゴリズムの重要な特徴は、二本腕のインスタンスに対する情報理論の下限に基づいて設計されていることである。我々は、予算に関して指数関数的に減衰する「textsc{Constrained-SR}」の下で、エラーの確率のインスタンス依存上界を特徴づける。さらに, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示す。

関連論文リスト

Fixed-Budget Constrained Best Arm Identification in Grouped Bandits [1.360738859820932]
我々は,各腕が複数の独立した属性と報酬から構成されるグループバンドにおける固定予算制約付きベストアーム識別について検討した。実現可能性を確保しつつ、最適な腕を識別する新しいアルゴリズムであるFCSRを提案する。
論文参考訳（メタデータ） (2026-03-04T12:49:56Z)
Multiple-play Stochastic Bandits with Prioritized Arm Capacity Sharing [52.124267908936396]
このモデルは、$M$armと$K$playで構成されている。各アームには複数の能力があり、各ユニットの能力は報酬関数に関連付けられている。複数のプレーがアームキャパシティを競う場合、アームキャパシティは第1の優先重みで割り当てられる。
論文参考訳（メタデータ） (2025-12-25T11:19:09Z)
EVaR-Optimal Arm Identification in Bandits [7.340828059560291]
The fixed-confidence best arm identification problem in the multiarmed bandit (MAB) framework under the Entropic Value-at-Risk criterion。
論文参考訳（メタデータ） (2025-10-06T11:49:56Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文参考訳（メタデータ） (2025-02-19T06:37:37Z)
Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文参考訳（メタデータ） (2024-05-23T22:35:11Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Multi-Agent Bayesian Optimization with Coupled Black-Box and Affine Constraints [21.38692458445459]
ブラックボックス制約と既知のアフィン制約を結合した分散マルチエージェントベイズ最適化の問題について検討する。単一エージェントの場合と同様の後悔/違反境界を実現するアルゴリズムが提案されている。
論文参考訳（メタデータ） (2023-10-02T08:07:36Z)
Complexity Analysis of a Countable-armed Bandit Problem [9.163501953373068]
遊びの地平線上で期待される累積的後悔を最小限に抑えるという古典的問題を考察する。我々は、$K=2$のとき、$mathcalOleft(log n right)$の率最適有限時間インスタンス依存後悔を実現するアルゴリズムを提案する。問題に対する後悔の順序と複雑さは、古典的MAB問題と非常に類似していることを示しているが、アルゴリズム設計における性能境界の特性と健全な側面は、後者とはかなり異なる。
論文参考訳（メタデータ） (2023-01-18T00:53:46Z)
Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文参考訳（メタデータ） (2022-09-16T09:38:38Z)
From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文参考訳（メタデータ） (2021-11-18T14:34:21Z)
Deconfounding Scores: Feature Representations for Causal Effect Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。特に,この手法が標準正規化の魅力的な代替となることを示す。
論文参考訳（メタデータ） (2021-04-12T18:50:11Z)
Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文参考訳（メタデータ） (2020-10-24T10:44:02Z)
Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed Bandits [4.760079434948198]
このようなパラメトリック情報を利用する特殊なアルゴリズムは、パラメータが誤って特定された場合、不整合学習性能が高いことを示す。主な貢献は, (i) 固定予算純探索条件下で統計的に堅牢なMABアルゴリズムの基本的な性能限界を確立すること, (ii) 二つの近似アルゴリズムのクラスを提案することである。
論文参考訳（メタデータ） (2020-08-28T13:43:12Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)
Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文参考訳（メタデータ） (2020-01-19T12:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。