論文の概要: Hindsight Learning for MDPs with Exogenous Inputs
- arxiv url: http://arxiv.org/abs/2207.06272v3
- Date: Mon, 23 Oct 2023 13:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:54:07.217657
- Title: Hindsight Learning for MDPs with Exogenous Inputs
- Title(参考訳): 外因性入力を持つMDPの視線学習
- Authors: Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Luke Marshall, Hugo
Barbalho, Jingling Li, Jennifer Neville, Ishai Menache, Adith Swaminathan
- Abstract要約: HL(Hindsight Learning)と呼ばれる資源管理問題に対するデータ効率アルゴリズムのクラスを設計する。
HLアルゴリズムは、重要な洞察を活用することで、データ効率を達成する: 変数のサンプルを持つことで、過去の決定は、政策改善を加速する反実的な結果を予測するために、後から再考することができる。
当社のアルゴリズムは、仮想マシン(VM)を物理マシンに割り当て、大規模なパブリッククラウドプロバイダの実際のデータセットでそのパフォーマンスをシミュレートする、ビジネスクリティカルなクラウドリソース管理問題にスケールします。
- 参考スコア(独自算出の注目度): 20.556789174972334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many resource management problems require sequential decision-making under
uncertainty, where the only uncertainty affecting the decision outcomes are
exogenous variables outside the control of the decision-maker. We model these
problems as Exo-MDPs (Markov Decision Processes with Exogenous Inputs) and
design a class of data-efficient algorithms for them termed Hindsight Learning
(HL). Our HL algorithms achieve data efficiency by leveraging a key insight:
having samples of the exogenous variables, past decisions can be revisited in
hindsight to infer counterfactual consequences that can accelerate policy
improvements. We compare HL against classic baselines in the multi-secretary
and airline revenue management problems. We also scale our algorithms to a
business-critical cloud resource management problem -- allocating Virtual
Machines (VMs) to physical machines, and simulate their performance with real
datasets from a large public cloud provider. We find that HL algorithms
outperform domain-specific heuristics, as well as state-of-the-art
reinforcement learning methods.
- Abstract(参考訳): 多くの資源管理問題は不確実性の下での逐次的な意思決定を必要とし、意思決定結果に影響を与える不確実性は意思決定者の制御の外にある外因性変数のみである。
本研究では,これらの問題をExo-MDP (Markov Decision Processs with Exogenous Inputs) としてモデル化し,Handsight Learning (HL) と呼ばれるデータ効率アルゴリズムのクラスを設計する。
我々のHLアルゴリズムは、重要な洞察を生かして、データ効率を達成する。例えば、外因性変数のサンプルを持つことで、過去の決定を後から再考して、政策改善を加速する反実的な結果を予測することができる。
多官庁・航空会社の収益管理問題において,HLと古典的ベースラインを比較した。
当社のアルゴリズムは、仮想マシン(VM)を物理マシンに割り当て、大規模なパブリッククラウドプロバイダの実際のデータセットでそのパフォーマンスをシミュレートする、ビジネスクリティカルなクラウドリソース管理問題にも拡張しています。
HLアルゴリズムは、最先端の強化学習法と同様に、ドメイン固有のヒューリスティックよりも優れている。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Zero-knowledge Proof Meets Machine Learning in Verifiability: A Survey [19.70499936572449]
高品質なモデルは、効率的な最適化アルゴリズムだけでなく、膨大なデータと計算能力に基づいて構築されたトレーニングと学習プロセスにも依存する。
計算リソースの制限やデータプライバシの懸念など,さまざまな課題があるため,モデルを必要とするユーザは,マシンラーニングモデルをローカルにトレーニングすることはできないことが多い。
本稿では,ゼロ知識証明に基づく検証可能な機械学習(ZKP-VML)技術について包括的に調査する。
論文 参考訳(メタデータ) (2023-10-23T12:15:23Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware
Predictions and Transfer Learning [1.5749416770494704]
予測の不確かさをモデル化することは、性能に肯定的な影響を及ぼすことを示す。
モデルが異なるドメイン間での伝達学習能力に有益かどうかを検討する。
論文 参考訳(メタデータ) (2023-02-24T14:51:30Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Short-Term Load Forecasting Using Time Pooling Deep Recurrent Neural
Network [0.0]
再生可能エネルギー源と電気自動車などの新興負荷をスマートグリッドに統合することは、配電系統管理に不確実性をもたらす。デマンドサイドマネジメント(DSM)は、不確実性を低減するためのアプローチの一つである。
Nonintrusive Load Monitoring (NILM) のようなアプリケーションは DSM をサポートすることができるが、高解像度データの正確な予測は必要である。
高いボラティリティのため、一戸建て住宅のような単一負荷の場合、これは難しい。
論文 参考訳(メタデータ) (2021-09-26T05:20:48Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Computation Resource Allocation Solution in Recommender Systems [19.456109814747048]
限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案します。
本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。
論文 参考訳(メタデータ) (2021-03-03T08:41:43Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。