論文の概要: Hindsight Learning for MDPs with Exogenous Inputs
- arxiv url: http://arxiv.org/abs/2207.06272v3
- Date: Mon, 23 Oct 2023 13:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:54:07.217657
- Title: Hindsight Learning for MDPs with Exogenous Inputs
- Title(参考訳): 外因性入力を持つMDPの視線学習
- Authors: Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Luke Marshall, Hugo
Barbalho, Jingling Li, Jennifer Neville, Ishai Menache, Adith Swaminathan
- Abstract要約: HL(Hindsight Learning)と呼ばれる資源管理問題に対するデータ効率アルゴリズムのクラスを設計する。
HLアルゴリズムは、重要な洞察を活用することで、データ効率を達成する: 変数のサンプルを持つことで、過去の決定は、政策改善を加速する反実的な結果を予測するために、後から再考することができる。
当社のアルゴリズムは、仮想マシン(VM)を物理マシンに割り当て、大規模なパブリッククラウドプロバイダの実際のデータセットでそのパフォーマンスをシミュレートする、ビジネスクリティカルなクラウドリソース管理問題にスケールします。
- 参考スコア(独自算出の注目度): 20.556789174972334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many resource management problems require sequential decision-making under
uncertainty, where the only uncertainty affecting the decision outcomes are
exogenous variables outside the control of the decision-maker. We model these
problems as Exo-MDPs (Markov Decision Processes with Exogenous Inputs) and
design a class of data-efficient algorithms for them termed Hindsight Learning
(HL). Our HL algorithms achieve data efficiency by leveraging a key insight:
having samples of the exogenous variables, past decisions can be revisited in
hindsight to infer counterfactual consequences that can accelerate policy
improvements. We compare HL against classic baselines in the multi-secretary
and airline revenue management problems. We also scale our algorithms to a
business-critical cloud resource management problem -- allocating Virtual
Machines (VMs) to physical machines, and simulate their performance with real
datasets from a large public cloud provider. We find that HL algorithms
outperform domain-specific heuristics, as well as state-of-the-art
reinforcement learning methods.
- Abstract(参考訳): 多くの資源管理問題は不確実性の下での逐次的な意思決定を必要とし、意思決定結果に影響を与える不確実性は意思決定者の制御の外にある外因性変数のみである。
本研究では,これらの問題をExo-MDP (Markov Decision Processs with Exogenous Inputs) としてモデル化し,Handsight Learning (HL) と呼ばれるデータ効率アルゴリズムのクラスを設計する。
我々のHLアルゴリズムは、重要な洞察を生かして、データ効率を達成する。例えば、外因性変数のサンプルを持つことで、過去の決定を後から再考して、政策改善を加速する反実的な結果を予測することができる。
多官庁・航空会社の収益管理問題において,HLと古典的ベースラインを比較した。
当社のアルゴリズムは、仮想マシン(VM)を物理マシンに割り当て、大規模なパブリッククラウドプロバイダの実際のデータセットでそのパフォーマンスをシミュレートする、ビジネスクリティカルなクラウドリソース管理問題にも拡張しています。
HLアルゴリズムは、最先端の強化学習法と同様に、ドメイン固有のヒューリスティックよりも優れている。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。
我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。
提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文 参考訳(メタデータ) (2024-09-25T09:50:51Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Zero-knowledge Proof Meets Machine Learning in Verifiability: A Survey [19.70499936572449]
高品質なモデルは、効率的な最適化アルゴリズムだけでなく、膨大なデータと計算能力に基づいて構築されたトレーニングと学習プロセスにも依存する。
計算リソースの制限やデータプライバシの懸念など,さまざまな課題があるため,モデルを必要とするユーザは,マシンラーニングモデルをローカルにトレーニングすることはできないことが多い。
本稿では,ゼロ知識証明に基づく検証可能な機械学習(ZKP-VML)技術について包括的に調査する。
論文 参考訳(メタデータ) (2023-10-23T12:15:23Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware
Predictions and Transfer Learning [1.5749416770494704]
予測の不確かさをモデル化することは、性能に肯定的な影響を及ぼすことを示す。
モデルが異なるドメイン間での伝達学習能力に有益かどうかを検討する。
論文 参考訳(メタデータ) (2023-02-24T14:51:30Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。