論文の概要: Safe Linear Leveling Bandits
- arxiv url: http://arxiv.org/abs/2112.06728v1
- Date: Mon, 13 Dec 2021 15:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:22:53.563705
- Title: Safe Linear Leveling Bandits
- Title(参考訳): 安全リニアレベルバンド
- Authors: Ilker Demirel, Mehmet Ufuk Ozdemir, Cem Tekin
- Abstract要約: マルチアーム・バンディット(MAB)は、行動結果のテキスト化が目的である様々な環境で研究される。
多くの現実世界の問題において安全は不可欠であるため、安全版のMABもかなりの関心を集めている。
そこでは,2面の安全制約を尊重しながら,行動の結果を目標レベルに近づけることを目的としている。
- 参考スコア(独自算出の注目度): 9.023847175654602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-armed bandits (MAB) are extensively studied in various settings where
the objective is to \textit{maximize} the actions' outcomes (i.e., rewards)
over time. Since safety is crucial in many real-world problems, safe versions
of MAB algorithms have also garnered considerable interest. In this work, we
tackle a different critical task through the lens of \textit{linear stochastic
bandits}, where the aim is to keep the actions' outcomes close to a target
level while respecting a \textit{two-sided} safety constraint, which we call
\textit{leveling}. Such a task is prevalent in numerous domains. Many
healthcare problems, for instance, require keeping a physiological variable in
a range and preferably close to a target level. The radical change in our
objective necessitates a new acquisition strategy, which is at the heart of a
MAB algorithm. We propose SALE-LTS: Safe Leveling via Linear Thompson Sampling
algorithm, with a novel acquisition strategy to accommodate our task and show
that it achieves sublinear regret with the same time and dimension dependence
as previous works on the classical reward maximization problem absent any
safety constraint. We demonstrate and discuss our algorithm's empirical
performance in detail via thorough experiments.
- Abstract(参考訳): マルチアームバンディット(MAB)は、アクションの結果(すなわち報酬)を時間とともに \textit{maximize} することを目的とする様々な環境で広く研究されている。
多くの現実世界の問題において安全性は不可欠であるため、MABアルゴリズムの安全なバージョンもかなりの関心を集めている。
この研究では、アクションの結果を目標レベルに近づけることを目的として、我々が \textit{leveling} と呼ぶ \textit{two-sided} の安全性制約を尊重することを目的として、 \textit{linear stochastic bandits} というレンズを通して異なるクリティカルなタスクに取り組む。
このようなタスクは、多くのドメインで一般的です。
多くの医療問題は、例えば、生理的変数を標的レベルに近い範囲に維持する必要がある。
私たちの目的の根本的な変化は、mabアルゴリズムの中心となる新しい買収戦略を必要とします。
そこで本研究では,線形トンプソンサンプリングアルゴリズムによる安全平準化手法を提案し,従来の安全制約を伴わない古典報酬最大化問題に対する取り組みと同等の時間と次元依存性を持つサブリニア後悔を実現することを示す。
我々は,我々のアルゴリズムの経験的性能を徹底的な実験を通して詳細に実証し,議論する。
関連論文リスト
- No-Regret Algorithms for Safe Bayesian Optimization with Monotonicity Constraints [41.04951588017592]
未知の関数 $f$ を $(s,mathbfx)$ という形式の一連の作用に対して逐次最大化する問題を考える。
提案アルゴリズムの修正版では,各$mathbfx$に対応するほぼ最適の$s$を求めるタスクに対して,サブ線形後悔が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:41:26Z) - A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed
Bandits [0.0]
医療や金融のような高ボラティリティの分野では、素直な報酬アプローチは学習問題の複雑さを正確に捉えないことが多い。
非定常環境で動作する適応型リスク認識戦略の枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-24T19:29:13Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。