論文の概要: COIN: Chance-Constrained Imitation Learning for Uncertainty-aware
Adaptive Resource Oversubscription Policy
- arxiv url: http://arxiv.org/abs/2401.07051v1
- Date: Sat, 13 Jan 2024 11:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:53:04.997180
- Title: COIN: Chance-Constrained Imitation Learning for Uncertainty-aware
Adaptive Resource Oversubscription Policy
- Title(参考訳): COIN:不確かさを意識した適応的リソースオーバーサブスクライブ政策のためのチャンス制約型模倣学習
- Authors: Lu Wang, Mayukh Das, Fangkai Yang, Chao Duo, Bo Qiao, Hang Dong, Si
Qin, Chetan Bansal, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
- Abstract要約: 不確実性が存在する場合に安全で堅牢な意思決定ポリシーを学ぶという課題に対処する。
従来の教師付き予測や予測モデルは適応ポリシーの学習には効果がない。
オンライン最適化や強化学習は、実際のシステムにデプロイすることが難しい。
- 参考スコア(独自算出の注目度): 37.034543365623286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of learning safe and robust decision policies in
presence of uncertainty in context of the real scientific problem of adaptive
resource oversubscription to enhance resource efficiency while ensuring safety
against resource congestion risk.
Traditional supervised prediction or forecasting models are ineffective in
learning adaptive policies whereas standard online optimization or
reinforcement learning is difficult to deploy on real systems. Offline methods
such as imitation learning (IL) are ideal since we can directly leverage
historical resource usage telemetry. But, the underlying aleatoric uncertainty
in such telemetry is a critical bottleneck.
We solve this with our proposed novel chance-constrained imitation learning
framework, which ensures implicit safety against uncertainty in a principled
manner via a combination of stochastic (chance) constraints on resource
congestion risk and ensemble value functions. This leads to substantial
($\approx 3-4\times$) improvement in resource efficiency and safety in many
oversubscription scenarios, including resource management in cloud services.
- Abstract(参考訳): 我々は,資源混雑リスクに対する安全性を確保しつつ,資源効率を高めるため,適応的資源過多の真の科学的問題の観点から,不確実性のある安全かつ堅牢な意思決定政策を学習することの課題に対処する。
従来の教師付き予測や予測モデルは適応ポリシーの学習には効果がないが、標準的なオンライン最適化や強化学習は実際のシステムに展開することが難しい。
歴史的なリソース利用テレメトリを直接活用できるため、il(imitation learning)のようなオフラインメソッドは理想的です。
しかし、このようなテレメトリーにおけるアレータリックな不確実性は重要なボトルネックである。
本稿では,資源混雑リスクに対する確率的制約とアンサンブル値関数の組み合わせにより,不確実性に対する暗黙の安全性を原則的に保証する,機会拘束型模倣学習フレームワークを提案する。
これにより、クラウドサービスのリソース管理を含む多くのオーバーサブスクライブシナリオにおいて、リソース効率と安全性が大幅に改善されます。
関連論文リスト
- Optimal Transport-Assisted Risk-Sensitive Q-Learning [4.14360329494344]
本稿では,エージェントの安全性を高めるために最適な輸送理論を利用するリスク感受性Q-ラーニングアルゴリズムを提案する。
提案したアルゴリズムをGridworld環境で検証する。
論文 参考訳(メタデータ) (2024-06-17T17:32:25Z) - Uncertainty-aware Distributional Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - Risk-Aware Transfer in Reinforcement Learning using Successor Features [16.328601804662657]
リスク対応後継機能(RaSF)が,実践的な強化学習フレームワークにシームレスに統合されていることを示す。
RaSFは、学習したポリシーのリスクを考慮すると、SFなどの代替手法よりも優れています。
論文 参考訳(メタデータ) (2021-05-28T22:22:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。