論文の概要: Convex Methods for Constrained Linear Bandits
- arxiv url: http://arxiv.org/abs/2311.04338v2
- Date: Fri, 10 Nov 2023 01:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:57:51.802482
- Title: Convex Methods for Constrained Linear Bandits
- Title(参考訳): 制約付き線形バンディットの凸法
- Authors: Amirhossein Afsharrad, Ahmadreza Moradipari, Sanjay Lall
- Abstract要約: この研究は、安全な帯域幅アルゴリズム、特に安全な線形帯域幅の計算的側面に関する包括的な研究を示す。
まず,安全線形バンディット問題に対する最適ポリシーの特性を特徴付けるとともに,安全線形バンディットアルゴリズムのエンドツーエンドパイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, bandit optimization has received significant attention in
real-world safety-critical systems that involve repeated interactions with
humans. While there exist various algorithms with performance guarantees in the
literature, practical implementation of the algorithms has not received as much
attention. This work presents a comprehensive study on the computational
aspects of safe bandit algorithms, specifically safe linear bandits, by
introducing a framework that leverages convex programming tools to create
computationally efficient policies. In particular, we first characterize the
properties of the optimal policy for safe linear bandit problem and then
propose an end-to-end pipeline of safe linear bandit algorithms that only
involves solving convex problems. We also numerically evaluate the performance
of our proposed methods.
- Abstract(参考訳): 近年,人間との交流が繰り返される現実世界の安全クリティカルシステムにおいて,帯域最適化が注目されている。
文献には性能保証のある様々なアルゴリズムが存在するが、実際のアルゴリズムの実装はそれほど注目されていない。
本研究は,convexプログラミングツールを活用して計算効率のよいポリシを作成するフレームワークを導入することにより,安全バンディットアルゴリズム,特に安全線形バンディットの計算的側面を包括的に研究する。
特に,我々はまず,安全な線形バンディット問題に対する最適ポリシーの特性を特徴付け,次いで凸問題のみを解決できる安全な線形バンディットアルゴリズムのエンドツーエンドパイプラインを提案する。
また,提案手法の性能を数値的に評価した。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Regularized Q-Learning with Linear Function Approximation [3.10770247120758]
本稿では,有限時間収束保証によるベルマン誤差最小化のための単一ループアルゴリズムについて考察する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Directional Optimism for Safe Linear Bandits [4.84955052297084]
安全線形バンドイット問題は、学習者の行動が全てのラウンドにおいて不確実な制約を満たす必要がある古典線形バンドイット問題のバージョンである。
我々は、よく分離された問題インスタンスと有限の星凸集合であるアクションセットの両方に対して、改善された後悔の保証を達成することができることを発見した。
最後に、制約が凸である安全な線形帯域設定の一般化を導入し、新しい凸解析に基づくアプローチを用いてアルゴリズムと解析をこの設定に適応させる。
論文 参考訳(メタデータ) (2023-08-29T03:54:53Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Reward-Biased Maximum Likelihood Estimation for Linear Stochastic
Bandits [16.042075861624056]
我々は,注文最適性を証明できる新しい指標ポリシーを開発し,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。
新しいポリシーは、線形バンディットに対して1プル当たりの少ない時間でこれを達成し、結果として、好意的な後悔と計算効率の両方をもたらす。
論文 参考訳(メタデータ) (2020-10-08T16:17:53Z) - Gamification of Pure Exploration for Linear Bandits [34.16123941778227]
線形バンディットの文脈において、ベストアーム識別を含む活発な純粋探索環境について検討する。
標準的なマルチアームバンディットには最適アルゴリズムが存在するが、リニアバンディットにおけるベストアーム識別のためのアルゴリズムの存在は明白である。
線形帯域における固定信頼純粋探索のための第一の洞察的最適アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-07-02T08:20:35Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。