論文の概要: Balancing Risk and Reward: An Automated Phased Release Strategy
- arxiv url: http://arxiv.org/abs/2305.09626v1
- Date: Tue, 16 May 2023 17:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:53:19.754918
- Title: Balancing Risk and Reward: An Automated Phased Release Strategy
- Title(参考訳): リスクと報酬のバランス - 自動段階的なリリース戦略
- Authors: Yufan Li, Jialiang Mao, Iavor Bojinov
- Abstract要約: 段階的なリリースは、A/Bテストを通じて、新しい製品やアップデートを徐々にリリースするための、テクノロジ業界における一般的な戦略です。
本研究では,スケジュールの各段階におけるリリース率を自動的に決定するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phased releases are a common strategy in the technology industry for
gradually releasing new products or updates through a sequence of A/B tests in
which the number of treated units gradually grows until full deployment or
deprecation. Performing phased releases in a principled way requires selecting
the proportion of units assigned to the new release in a way that balances the
risk of an adverse effect with the need to iterate and learn from the
experiment rapidly. In this paper, we formalize this problem and propose an
algorithm that automatically determines the release percentage at each stage in
the schedule, balancing the need to control risk while maximizing ramp-up
speed. Our framework models the challenge as a constrained batched bandit
problem that ensures that our pre-specified experimental budget is not depleted
with high probability. Our proposed algorithm leverages an adaptive Bayesian
approach in which the maximal number of units assigned to the treatment is
determined by the posterior distribution, ensuring that the probability of
depleting the remaining budget is low. Notably, our approach analytically
solves the ramp sizes by inverting probability bounds, eliminating the need for
challenging rare-event Monte Carlo simulation. It only requires computing means
and variances of outcome subsets, making it highly efficient and
parallelizable.
- Abstract(参考訳): 段階的リリース(phased release)は、新しい製品やアップデートをa/bテストのシーケンスを通じて段階的にリリースする、テクノロジ業界における一般的な戦略である。
原則的に段階的なリリースを行うには、新しいリリースに割り当てられたユニットの割合を、悪影響のリスクと、実験の反復と学習を迅速に行う必要性とをバランスさせる方法で選択する必要がある。
本稿では,この問題を定式化し,スケジュールの各段階におけるリリース率を自動的に決定し,ランプアップ速度を最大化しながらリスクを制御する必要性のバランスをとるアルゴリズムを提案する。
私たちのフレームワークはこの課題を制約付きバッチバンディット問題としてモデル化し、事前定義された実験予算が高い確率で枯渇しないようにします。
提案アルゴリズムは,処理に割り当てられた単位の最大数が後方分布によって決定される適応ベイズ法を利用して,残りの予算を減少させる確率が低いことを保証する。
特に,確率境界を反転させることでランプサイズを解析的に解決し,希少事象モンテカルロシミュレーションを不要とした。
計算手段と結果サブセットの分散のみが必要で、非常に効率的で並列化可能である。
関連論文リスト
- Asynchronous Fractional Multi-Agent Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing [14.260646140460187]
計算集約的な更新のタイムラインを調査し、AoIを最小化するためにタスク更新とオフロードポリシーを共同で最適化する。
具体的には、エッジ負荷のダイナミクスを考慮し、期待時間平均AoIを最小化するためにタスクスケジューリング問題を定式化する。
提案アルゴリズムは,実験における最良基準アルゴリズムと比較して平均AoIを最大52.6%削減する。
論文 参考訳(メタデータ) (2024-09-25T11:33:32Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - A Deep Reinforcement Learning Approach to Rare Event Estimation [30.670114229970526]
自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。
安全クリティカルな領域では、モンテカルロサンプリングによる政策の評価が非効率であるように、失敗確率は非常に小さい。
逐次意思決定システムにおいて、稀な事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-22T18:29:14Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。