Fugu-MT 論文翻訳(概要): Hindsight Learning for MDPs with Exogenous Inputs

論文の概要: Hindsight Learning for MDPs with Exogenous Inputs

arxiv url: http://arxiv.org/abs/2207.06272v3
Date: Mon, 23 Oct 2023 13:06:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 14:54:07.217657
Title: Hindsight Learning for MDPs with Exogenous Inputs
Title（参考訳）: 外因性入力を持つMDPの視線学習
Authors: Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Luke Marshall, Hugo Barbalho, Jingling Li, Jennifer Neville, Ishai Menache, Adith Swaminathan
Abstract要約: HL(Hindsight Learning)と呼ばれる資源管理問題に対するデータ効率アルゴリズムのクラスを設計する。 HLアルゴリズムは、重要な洞察を活用することで、データ効率を達成する: 変数のサンプルを持つことで、過去の決定は、政策改善を加速する反実的な結果を予測するために、後から再考することができる。当社のアルゴリズムは、仮想マシン(VM)を物理マシンに割り当て、大規模なパブリッククラウドプロバイダの実際のデータセットでそのパフォーマンスをシミュレートする、ビジネスクリティカルなクラウドリソース管理問題にスケールします。
参考スコア（独自算出の注目度）: 20.556789174972334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many resource management problems require sequential decision-making under uncertainty, where the only uncertainty affecting the decision outcomes are exogenous variables outside the control of the decision-maker. We model these problems as Exo-MDPs (Markov Decision Processes with Exogenous Inputs) and design a class of data-efficient algorithms for them termed Hindsight Learning (HL). Our HL algorithms achieve data efficiency by leveraging a key insight: having samples of the exogenous variables, past decisions can be revisited in hindsight to infer counterfactual consequences that can accelerate policy improvements. We compare HL against classic baselines in the multi-secretary and airline revenue management problems. We also scale our algorithms to a business-critical cloud resource management problem -- allocating Virtual Machines (VMs) to physical machines, and simulate their performance with real datasets from a large public cloud provider. We find that HL algorithms outperform domain-specific heuristics, as well as state-of-the-art reinforcement learning methods.
Abstract（参考訳）: 多くの資源管理問題は不確実性の下での逐次的な意思決定を必要とし、意思決定結果に影響を与える不確実性は意思決定者の制御の外にある外因性変数のみである。本研究では,これらの問題をExo-MDP (Markov Decision Processs with Exogenous Inputs) としてモデル化し,Handsight Learning (HL) と呼ばれるデータ効率アルゴリズムのクラスを設計する。我々のHLアルゴリズムは、重要な洞察を生かして、データ効率を達成する。例えば、外因性変数のサンプルを持つことで、過去の決定を後から再考して、政策改善を加速する反実的な結果を予測することができる。多官庁・航空会社の収益管理問題において,HLと古典的ベースラインを比較した。当社のアルゴリズムは、仮想マシン(VM)を物理マシンに割り当て、大規模なパブリッククラウドプロバイダの実際のデータセットでそのパフォーマンスをシミュレートする、ビジネスクリティカルなクラウドリソース管理問題にも拡張しています。 HLアルゴリズムは、最先端の強化学習法と同様に、ドメイン固有のヒューリスティックよりも優れている。

関連論文リスト

Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
Explainable AI for UAV Mobility Management: A Deep Q-Network Approach for Handover Minimization [4.7430397428031785]
本稿では、さまざまな状態パラメータがハンドオーバ決定にどのように影響するかについて、より深い洞察を提供するための、説明可能なAI(XAI)フレームワークを紹介する。参照信号受信電力(RSRP)などの重要な特徴の影響を定量化することにより、RLベースのハンドオーバソリューションの解釈可能性と信頼性を向上させる。
論文参考訳（メタデータ） (2025-04-25T14:11:51Z)
FedMHO: Heterogeneous One-Shot Federated Learning Towards Resource-Constrained Edge Devices [12.08958206272527]
フェデレートラーニング(FL)はエッジコンピューティングのシナリオにおいてますます採用され、多くの異種クライアントが制約や十分なリソースの下で運用されている。ワンショットFLは通信オーバーヘッドを軽減するための有望なアプローチとして登場し、モデルヘテロジニアスFLはクライアント間の多様なコンピューティングリソースの問題を解決する。本稿では,リソースに制約のあるデバイス上で,リソースに十分なクライアントと軽量な生成モデルに対して,詳細な分類モデルを活用するFedMHOという新しいFLフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T15:54:56Z)
Deep Reinforcement Learning for Job Scheduling and Resource Management in Cloud Computing: An Algorithm-Level Review [10.015735252600793]
深層強化学習(Dep Reinforcement Learning, DRL)は、これらの課題に対する有望な解決策として登場した。 DRLにより、システムは環境の継続的な観察に基づいてポリシーを学習し、適応することができる。この調査は、クラウドコンピューティングにおけるジョブスケジューリングとリソース管理のためのDRLベースのアルゴリズムの包括的なレビューを提供する。
論文参考訳（メタデータ） (2025-01-02T02:08:00Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。本稿では,Active-Acquisition POMDPを提案する。積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文参考訳（メタデータ） (2024-10-04T19:48:23Z)
Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文参考訳（メタデータ） (2024-09-25T09:50:51Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文参考訳（メタデータ） (2023-12-01T01:30:49Z)
Zero-knowledge Proof Meets Machine Learning in Verifiability: A Survey [19.70499936572449]
高品質なモデルは、効率的な最適化アルゴリズムだけでなく、膨大なデータと計算能力に基づいて構築されたトレーニングと学習プロセスにも依存する。計算リソースの制限やデータプライバシの懸念など,さまざまな課題があるため,モデルを必要とするユーザは,マシンラーニングモデルをローカルにトレーニングすることはできないことが多い。本稿では,ゼロ知識証明に基づく検証可能な機械学習(ZKP-VML)技術について包括的に調査する。
論文参考訳（メタデータ） (2023-10-23T12:15:23Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware Predictions and Transfer Learning [1.5749416770494704]
予測の不確かさをモデル化することは、性能に肯定的な影響を及ぼすことを示す。モデルが異なるドメイン間での伝達学習能力に有益かどうかを検討する。
論文参考訳（メタデータ） (2023-02-24T14:51:30Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。