論文の概要: Balancing Risk and Reward: An Automated Phased Release Strategy
- arxiv url: http://arxiv.org/abs/2305.09626v1
- Date: Tue, 16 May 2023 17:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:53:19.754918
- Title: Balancing Risk and Reward: An Automated Phased Release Strategy
- Title(参考訳): リスクと報酬のバランス - 自動段階的なリリース戦略
- Authors: Yufan Li, Jialiang Mao, Iavor Bojinov
- Abstract要約: 段階的なリリースは、A/Bテストを通じて、新しい製品やアップデートを徐々にリリースするための、テクノロジ業界における一般的な戦略です。
本研究では,スケジュールの各段階におけるリリース率を自動的に決定するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phased releases are a common strategy in the technology industry for
gradually releasing new products or updates through a sequence of A/B tests in
which the number of treated units gradually grows until full deployment or
deprecation. Performing phased releases in a principled way requires selecting
the proportion of units assigned to the new release in a way that balances the
risk of an adverse effect with the need to iterate and learn from the
experiment rapidly. In this paper, we formalize this problem and propose an
algorithm that automatically determines the release percentage at each stage in
the schedule, balancing the need to control risk while maximizing ramp-up
speed. Our framework models the challenge as a constrained batched bandit
problem that ensures that our pre-specified experimental budget is not depleted
with high probability. Our proposed algorithm leverages an adaptive Bayesian
approach in which the maximal number of units assigned to the treatment is
determined by the posterior distribution, ensuring that the probability of
depleting the remaining budget is low. Notably, our approach analytically
solves the ramp sizes by inverting probability bounds, eliminating the need for
challenging rare-event Monte Carlo simulation. It only requires computing means
and variances of outcome subsets, making it highly efficient and
parallelizable.
- Abstract(参考訳): 段階的リリース(phased release)は、新しい製品やアップデートをa/bテストのシーケンスを通じて段階的にリリースする、テクノロジ業界における一般的な戦略である。
原則的に段階的なリリースを行うには、新しいリリースに割り当てられたユニットの割合を、悪影響のリスクと、実験の反復と学習を迅速に行う必要性とをバランスさせる方法で選択する必要がある。
本稿では,この問題を定式化し,スケジュールの各段階におけるリリース率を自動的に決定し,ランプアップ速度を最大化しながらリスクを制御する必要性のバランスをとるアルゴリズムを提案する。
私たちのフレームワークはこの課題を制約付きバッチバンディット問題としてモデル化し、事前定義された実験予算が高い確率で枯渇しないようにします。
提案アルゴリズムは,処理に割り当てられた単位の最大数が後方分布によって決定される適応ベイズ法を利用して,残りの予算を減少させる確率が低いことを保証する。
特に,確率境界を反転させることでランプサイズを解析的に解決し,希少事象モンテカルロシミュレーションを不要とした。
計算手段と結果サブセットの分散のみが必要で、非常に効率的で並列化可能である。
関連論文リスト
- Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Distribution-free risk assessment of regression-based machine learning
algorithms [6.507711025292814]
我々は回帰アルゴリズムとモデル予測の周囲に定義された区間内に存在する真のラベルの確率を計算するリスク評価タスクに焦点をあてる。
そこで,本研究では,正のラベルを所定の確率で含むことが保証される予測区間を提供する共形予測手法を用いてリスク評価問題を解決する。
論文 参考訳(メタデータ) (2023-10-05T13:57:24Z) - STEEL: Singularity-aware Reinforcement Learning [6.125166470658614]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。
悲観主義の考え方を利用して、いくつかの穏やかな条件下で、提案したアルゴリズムに対する有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - A Deep Reinforcement Learning Approach to Rare Event Estimation [30.670114229970526]
自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。
安全クリティカルな領域では、モンテカルロサンプリングによる政策の評価が非効率であるように、失敗確率は非常に小さい。
逐次意思決定システムにおいて、稀な事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-22T18:29:14Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。