論文の概要: Hindsight Learning for MDPs with Exogenous Inputs
- arxiv url: http://arxiv.org/abs/2207.06272v1
- Date: Wed, 13 Jul 2022 15:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 12:21:00.238565
- Title: Hindsight Learning for MDPs with Exogenous Inputs
- Title(参考訳): 外因性入力を持つMDPの視線学習
- Authors: Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Adith Swaminathan
- Abstract要約: 逐次決定と不確実性を扱うアプリケーションのための強化学習フレームワークを開発する。
本フレームワークは,政策訓練信号として後方最適行動を用い,意思決定性能に関する理論的確証を強く有する。
- 参考スコア(独自算出の注目度): 18.112061285438863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a reinforcement learning (RL) framework for applications that deal
with sequential decisions and exogenous uncertainty, such as resource
allocation and inventory management. In these applications, the uncertainty is
only due to exogenous variables like future demands. A popular approach is to
predict the exogenous variables using historical data and then plan with the
predictions. However, this indirect approach requires high-fidelity modeling of
the exogenous process to guarantee good downstream decision-making, which can
be impractical when the exogenous process is complex. In this work we propose
an alternative approach based on hindsight learning which sidesteps modeling
the exogenous process. Our key insight is that, unlike Sim2Real RL, we can
revisit past decisions in the historical data and derive counterfactual
consequences for other actions in these applications. Our framework uses
hindsight-optimal actions as the policy training signal and has strong
theoretical guarantees on decision-making performance. We develop an algorithm
using our framework to allocate compute resources for real-world Microsoft
Azure workloads. The results show our approach learns better policies than
domain-specific heuristics and Sim2Real RL baselines.
- Abstract(参考訳): 我々は,資源配分や在庫管理など,逐次決定や外因性不確実性を扱うアプリケーションのための強化学習(RL)フレームワークを開発する。
これらのアプリケーションでは、不確実性は将来の要求のような外因性変数によってのみ生じる。
一般的なアプローチは、履歴データを使用して外因性変数を予測し、その予測で計画する。
しかし、この間接的アプローチでは、下流の優れた意思決定を保証するために、外因性プロセスの高忠実性モデリングが必要である。
本研究では,外因性プロセスのモデル化を側面から行う,後向き学習に基づく代替手法を提案する。
我々の重要な洞察は、Sim2Real RLとは異なり、過去の決定を過去のデータで再考し、これらのアプリケーションにおける他のアクションに対する反実的な結果をもたらすことができるということです。
本フレームワークは,政策訓練信号として後方最適行動を用い,意思決定性能に関する理論的確証が強い。
現実世界のMicrosoft Azureワークロードに計算リソースを割り当てるアルゴリズムを開発した。
その結果,本手法はドメイン固有のヒューリスティックスやSim2Real RLベースラインよりも優れたポリシーを学習できることがわかった。
関連論文リスト
- Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Zero-knowledge Proof Meets Machine Learning in Verifiability: A Survey [19.70499936572449]
高品質なモデルは、効率的な最適化アルゴリズムだけでなく、膨大なデータと計算能力に基づいて構築されたトレーニングと学習プロセスにも依存する。
計算リソースの制限やデータプライバシの懸念など,さまざまな課題があるため,モデルを必要とするユーザは,マシンラーニングモデルをローカルにトレーニングすることはできないことが多い。
本稿では,ゼロ知識証明に基づく検証可能な機械学習(ZKP-VML)技術について包括的に調査する。
論文 参考訳(メタデータ) (2023-10-23T12:15:23Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware
Predictions and Transfer Learning [1.5749416770494704]
予測の不確かさをモデル化することは、性能に肯定的な影響を及ぼすことを示す。
モデルが異なるドメイン間での伝達学習能力に有益かどうかを検討する。
論文 参考訳(メタデータ) (2023-02-24T14:51:30Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Short-Term Load Forecasting Using Time Pooling Deep Recurrent Neural
Network [0.0]
再生可能エネルギー源と電気自動車などの新興負荷をスマートグリッドに統合することは、配電系統管理に不確実性をもたらす。デマンドサイドマネジメント(DSM)は、不確実性を低減するためのアプローチの一つである。
Nonintrusive Load Monitoring (NILM) のようなアプリケーションは DSM をサポートすることができるが、高解像度データの正確な予測は必要である。
高いボラティリティのため、一戸建て住宅のような単一負荷の場合、これは難しい。
論文 参考訳(メタデータ) (2021-09-26T05:20:48Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Computation Resource Allocation Solution in Recommender Systems [19.456109814747048]
限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案します。
本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。
論文 参考訳(メタデータ) (2021-03-03T08:41:43Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。