論文の概要: Stochastic Conservative Contextual Linear Bandits
- arxiv url: http://arxiv.org/abs/2203.15629v1
- Date: Tue, 29 Mar 2022 14:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:34:06.066261
- Title: Stochastic Conservative Contextual Linear Bandits
- Title(参考訳): 確率的保守的文脈的線形バンディット
- Authors: Jiabin Lin, Xian Yeow Lee, Talukder Jubery, Shana Moothedath, Soumik
Sarkar, and Baskar Ganapathysubramanian
- Abstract要約: 不確実性の下での安全なリアルタイム意思決定の問題について検討する。
我々は、リアルタイム意思決定のための保守的な文脈的帯域幅の定式化を定式化する。
- 参考スコア(独自算出の注目度): 8.684768561839146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many physical systems have underlying safety considerations that require that
the strategy deployed ensures the satisfaction of a set of constraints.
Further, often we have only partial information on the state of the system. We
study the problem of safe real-time decision making under uncertainty. In this
paper, we formulate a conservative stochastic contextual bandit formulation for
real-time decision making when an adversary chooses a distribution on the set
of possible contexts and the learner is subject to certain safety/performance
constraints. The learner observes only the context distribution and the exact
context is unknown, and the goal is to develop an algorithm that selects a
sequence of optimal actions to maximize the cumulative reward without violating
the safety constraints at any time step. By leveraging the UCB algorithm for
this setting, we propose a conservative linear UCB algorithm for stochastic
bandits with context distribution. We prove an upper bound on the regret of the
algorithm and show that it can be decomposed into three terms: (i) an upper
bound for the regret of the standard linear UCB algorithm, (ii) a constant term
(independent of time horizon) that accounts for the loss of being conservative
in order to satisfy the safety constraint, and (ii) a constant term
(independent of time horizon) that accounts for the loss for the contexts being
unknown and only the distribution being known. To validate the performance of
our approach we perform extensive simulations on synthetic data and on
real-world maize data collected through the Genomes to Fields (G2F) initiative.
- Abstract(参考訳): 多くの物理システムは、戦略を展開することで一連の制約の満足度を確保することを必要とする、基本的な安全上の考慮を持っている。
さらに、システムの状態に関する部分的な情報しか得られないことが多い。
不確実性下での安全なリアルタイム意思決定の問題について検討する。
本稿では,リアルタイム意思決定のための保守的確率的文脈的バンディット定式化を,敵が可能なコンテキストの集合上の分布を選択し,学習者が一定の安全性・性能上の制約を受ける場合に定式化する。
学習者は、文脈分布と正確な文脈のみを観察し、任意の時間ステップで安全制約に違反することなく累積報酬を最大化する最適な行動の列を選択するアルゴリズムを開発する。
この設定に UCB アルゴリズムを応用して, 文脈分布を持つ確率的包帯に対する保守線形 UCB アルゴリズムを提案する。
我々は、そのアルゴリズムの後悔の上限を証明し、それを3つの用語に分解できることを示す。
(i)標準線形 UCB アルゴリズムの後悔に対する上限
(二 安全上の制約を満たすために保守的であることの喪失を理由とする一定の用語(時間的地平線によらない。)
(II) 時間的地平線に依存しない定数項で、文脈の損失は未知であり、分布のみが知られている。
提案手法の性能を検証するために,合成データおよびg2fイニシアチブによって収集された実世界のトウモロコシデータに対する広範囲なシミュレーションを行う。
関連論文リスト
- PAC Learnability of Scenario Decision-Making Algorithms: Necessary and Sufficient Conditions [0.7673339435080445]
PACは、未知の安全制約に違反するリスクが任意に低い決定を下す能力である。
シナリオ決定アルゴリズムがPACとなるための十分な条件が文献で提供されている。
シナリオ決定アルゴリズムに必要な条件は,VC次元といわゆるフリーランチ定理にインスパイアされたPACである。
論文 参考訳(メタデータ) (2025-01-15T15:57:13Z) - Safe Reinforcement Learning for Constrained Markov Decision Processes with Stochastic Stopping Time [0.6554326244334868]
安全制約付きマルコフ決定過程に対するオンライン強化学習アルゴリズムを提案する。
学習方針は高い信頼を持って安全であることを示す。
また、プロキシセットと呼ばれる状態空間のサブセットを定義することで、効率的な探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-23T20:22:30Z) - Learning Adversarial MDPs with Stochastic Hard Constraints [37.24692425018]
我々は,制約付きマルコフ決定過程(CMDP)におけるオンライン学習について,敵対的損失と厳しい制約を伴って検討した。
我々の研究は、敵の損失と厳しい制約の両方にかかわるCMDPを初めて研究した。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。
提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。
合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文 参考訳(メタデータ) (2024-01-21T18:43:55Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Conservative Distributional Reinforcement Learning with Safety
Constraints [22.49025480735792]
安全探索は、期待される長期コストが制約されるマルコフ決定問題とみなすことができる。
従来の非政治アルゴリズムは、制約付き最適化問題をラグランジアン緩和手法を導入して、対応する制約なしの双対問題に変換する。
本稿では,ポストリオ政策最適化による保守的分布最大化という,非政治的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-18T19:45:43Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。