論文の概要: A Minimax-MDP Framework with Future-imposed Conditions for Learning-augmented Problems
- arxiv url: http://arxiv.org/abs/2505.00973v1
- Date: Fri, 02 May 2025 03:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.890433
- Title: A Minimax-MDP Framework with Future-imposed Conditions for Learning-augmented Problems
- Title(参考訳): 学習強化問題に対する将来想定条件付きMinimax-MDPフレームワーク
- Authors: Xin Chen, Yuze Chen, Yuan Zhou,
- Abstract要約: 我々は,機械学習アルゴリズムによってもたらされる可能性のある,拡張予測を用いた逐次決定問題のクラスについて検討する。
この設定では、意思決定者は、時間とともに徐々に洗練される未知のパラメータの予測間隔を受信する。
我々は,システム状態が逆向きに変化する環境状態と,意思決定者が制御する内部状態とから構成されるミニマックスマルコフ決定プロセス(minimax-MDP)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.827221988826484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a class of sequential decision-making problems with augmented predictions, potentially provided by a machine learning algorithm. In this setting, the decision-maker receives prediction intervals for unknown parameters that become progressively refined over time, and seeks decisions that are competitive with the hindsight optimal under all possible realizations of both parameters and predictions. We propose a minimax Markov Decision Process (minimax-MDP) framework, where the system state consists of an adversarially evolving environment state and an internal state controlled by the decision-maker. We introduce a set of future-imposed conditions that characterize the feasibility of minimax-MDPs and enable the design of efficient, often closed-form, robustly competitive policies. We illustrate the framework through three applications: multi-period inventory ordering with refining demand predictions, resource allocation with uncertain utility functions, and a multi-phase extension of the minimax-MDP applied to the inventory problem with time-varying ordering costs. Our results provide a tractable and versatile approach to robust online decision-making under predictive uncertainty.
- Abstract(参考訳): 本稿では,機械学習アルゴリズムによってもたらされる可能性のある拡張予測を用いて,逐次的意思決定問題のクラスについて検討する。
この設定では、決定者は、時間とともに徐々に洗練される未知のパラメータの予測間隔を受け取り、パラメータと予測の両方の可能なすべての実現の下で、後向きの最適値と競合する決定を求める。
我々は,システム状態が逆向きに変化する環境状態と,意思決定者が制御する内部状態とから構成されるミニマックスマルコフ決定プロセス(minimax-MDP)フレームワークを提案する。
我々は,ミニマックスMDPの実現可能性を特徴づけ,効率的に,しばしば閉じた,堅牢な競合ポリシーの設計を可能にする,将来提案された一連の条件を紹介した。
本稿では, 需要予測を精算した多周期在庫注文, 不確実な実用機能を備えた資源配分, 在庫問題に適用したミニマックスMDPのマルチフェーズ拡張の3つの応用例を紹介する。
この結果は、予測の不確実性の下での堅牢なオンライン意思決定に対する、トラクタブルで汎用的なアプローチを提供する。
関連論文リスト
- Weathering Ongoing Uncertainty: Learning and Planning in a Time-Varying
Partially Observable Environment [14.646280719661465]
時間による環境変動は、システムの最適な意思決定戦略に大きな影響を及ぼす可能性がある。
本稿では,TV-POMDP内での正確な推定と計画を行うための2段階のアプローチを提案する。
提案するフレームワークとアルゴリズムをシミュレーションとロボットを用いて検証する。
論文 参考訳(メタデータ) (2023-12-06T03:20:42Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Correct-by-construction reach-avoid control of partially observable
linear stochastic systems [7.912008109232803]
離散時間線形時間不変系のリーチエイド制御のための頑健なフィードバックコントローラを定式化する。
問題は、必要となる証明状態の抽象化問題を満たすコントローラを計算することである。
論文 参考訳(メタデータ) (2021-03-03T13:46:52Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文 参考訳(メタデータ) (2020-06-17T04:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。