論文の概要: Hindsight Learning for MDPs with Exogenous Inputs
- arxiv url: http://arxiv.org/abs/2207.06272v1
- Date: Wed, 13 Jul 2022 15:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 12:21:00.238565
- Title: Hindsight Learning for MDPs with Exogenous Inputs
- Title(参考訳): 外因性入力を持つMDPの視線学習
- Authors: Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Adith Swaminathan
- Abstract要約: 逐次決定と不確実性を扱うアプリケーションのための強化学習フレームワークを開発する。
本フレームワークは,政策訓練信号として後方最適行動を用い,意思決定性能に関する理論的確証を強く有する。
- 参考スコア(独自算出の注目度): 18.112061285438863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a reinforcement learning (RL) framework for applications that deal
with sequential decisions and exogenous uncertainty, such as resource
allocation and inventory management. In these applications, the uncertainty is
only due to exogenous variables like future demands. A popular approach is to
predict the exogenous variables using historical data and then plan with the
predictions. However, this indirect approach requires high-fidelity modeling of
the exogenous process to guarantee good downstream decision-making, which can
be impractical when the exogenous process is complex. In this work we propose
an alternative approach based on hindsight learning which sidesteps modeling
the exogenous process. Our key insight is that, unlike Sim2Real RL, we can
revisit past decisions in the historical data and derive counterfactual
consequences for other actions in these applications. Our framework uses
hindsight-optimal actions as the policy training signal and has strong
theoretical guarantees on decision-making performance. We develop an algorithm
using our framework to allocate compute resources for real-world Microsoft
Azure workloads. The results show our approach learns better policies than
domain-specific heuristics and Sim2Real RL baselines.
- Abstract(参考訳): 我々は,資源配分や在庫管理など,逐次決定や外因性不確実性を扱うアプリケーションのための強化学習(RL)フレームワークを開発する。
これらのアプリケーションでは、不確実性は将来の要求のような外因性変数によってのみ生じる。
一般的なアプローチは、履歴データを使用して外因性変数を予測し、その予測で計画する。
しかし、この間接的アプローチでは、下流の優れた意思決定を保証するために、外因性プロセスの高忠実性モデリングが必要である。
本研究では,外因性プロセスのモデル化を側面から行う,後向き学習に基づく代替手法を提案する。
我々の重要な洞察は、Sim2Real RLとは異なり、過去の決定を過去のデータで再考し、これらのアプリケーションにおける他のアクションに対する反実的な結果をもたらすことができるということです。
本フレームワークは,政策訓練信号として後方最適行動を用い,意思決定性能に関する理論的確証が強い。
現実世界のMicrosoft Azureワークロードに計算リソースを割り当てるアルゴリズムを開発した。
その結果,本手法はドメイン固有のヒューリスティックスやSim2Real RLベースラインよりも優れたポリシーを学習できることがわかった。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。
我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。
提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文 参考訳(メタデータ) (2024-09-25T09:50:51Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Zero-knowledge Proof Meets Machine Learning in Verifiability: A Survey [19.70499936572449]
高品質なモデルは、効率的な最適化アルゴリズムだけでなく、膨大なデータと計算能力に基づいて構築されたトレーニングと学習プロセスにも依存する。
計算リソースの制限やデータプライバシの懸念など,さまざまな課題があるため,モデルを必要とするユーザは,マシンラーニングモデルをローカルにトレーニングすることはできないことが多い。
本稿では,ゼロ知識証明に基づく検証可能な機械学習(ZKP-VML)技術について包括的に調査する。
論文 参考訳(メタデータ) (2023-10-23T12:15:23Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware
Predictions and Transfer Learning [1.5749416770494704]
予測の不確かさをモデル化することは、性能に肯定的な影響を及ぼすことを示す。
モデルが異なるドメイン間での伝達学習能力に有益かどうかを検討する。
論文 参考訳(メタデータ) (2023-02-24T14:51:30Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。