論文の概要: On Kernelized Multi-Armed Bandits with Constraints
- arxiv url: http://arxiv.org/abs/2203.15589v1
- Date: Tue, 29 Mar 2022 14:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 20:34:36.949886
- Title: On Kernelized Multi-Armed Bandits with Constraints
- Title(参考訳): 制約付きカーネル化マルチアーマッドバンドについて
- Authors: Xingyu Zhou and Bo Ji
- Abstract要約: 一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
- 参考スコア(独自算出の注目度): 16.102401271318012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a stochastic bandit problem with a general unknown reward function
and a general unknown constraint function. Both functions can be non-linear
(even non-convex) and are assumed to lie in a reproducing kernel Hilbert space
(RKHS) with a bounded norm. This kernelized bandit setup strictly generalizes
standard multi-armed bandits and linear bandits. In contrast to safety-type
hard constraints studied in prior works, we consider soft constraints that may
be violated in any round as long as the cumulative violations are small, which
is motivated by various practical applications. Our ultimate goal is to study
how to utilize the nature of soft constraints to attain a finer
complexity-regret-constraint trade-off in the kernelized bandit setting. To
this end, leveraging primal-dual optimization, we propose a general framework
for both algorithm design and performance analysis. This framework builds upon
a novel sufficient condition, which not only is satisfied under general
exploration strategies, including \emph{upper confidence bound} (UCB),
\emph{Thompson sampling} (TS), and new ones based on \emph{random exploration},
but also enables a unified analysis for showing both sublinear regret and
sublinear or even zero constraint violation. We demonstrate the superior
performance of our proposed algorithms via numerical experiments based on both
synthetic and real-world datasets. Along the way, we also make the first
detailed comparison between two popular methods for analyzing constrained
bandits and Markov decision processes (MDPs) by discussing the key difference
and some subtleties in the analysis, which could be of independent interest to
the communities.
- Abstract(参考訳): 一般未知の報酬関数と一般未知の制約関数を持つ確率的バンディット問題について検討する。
どちらの関数も非線型(非凸でさえ)であり、有界ノルムを持つ再生核ヒルベルト空間(RKHS)にあると仮定される。
このカーネル化されたバンディット設定は、標準のマルチアームバンディットと線形バンディットを厳密に一般化する。
従来の研究で研究された安全型ハード制約とは対照的に,累積的違反が小さい限り,任意のラウンドで違反される可能性のあるソフト制約は,様々な実用的応用に動機づけられる。
究極の目標は、ソフト制約の性質をいかに活用して、カーネル化されたバンディット設定におけるより細かい複雑さと制約のトレードオフを達成するかを研究することです。
そこで本研究では,アルゴリズム設計と性能解析の両方のための汎用フレームワークを提案する。
この枠組みは、新しい十分条件に基づいているが、これは一般的な探索戦略の下で満足されるだけでなく、例えば \emph{upper confidence bound} (ucb)、 \emph{thompson sampling} (ts)、および \emph{random exploration} に基づく新しい条件も含む。
本研究では,合成データと実世界データの両方に基づく数値実験により,提案アルゴリズムの優れた性能を示す。
また,本研究では,制約付きバンディットとマルコフ決定プロセス(mdps)の分析方法について,コミュニティに独立した関心を抱く分析における重要な違いと若干の微妙な点を考察し,最初の比較を行った。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints [29.514323697659613]
我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。
私たちのゴールは、双方の制約の下で機能するベスト・オブ・ザ・ワールドのアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2024-05-25T08:09:36Z) - Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression [65.8785736964253]
本稿では,線形制約付きコンテキスト帯域(CBwLC)について考察する。これは,アルゴリズムが全消費の線形制約を受ける複数のリソースを消費するコンテキスト帯域の変種である。
この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。
本稿では,回帰オラクルに基づくCBwLC(CBwK)のアルゴリズムについて述べる。このアルゴリズムは単純で,計算効率が良く,統計的に最適である。
論文 参考訳(メタデータ) (2022-11-14T16:08:44Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。