論文の概要: Predictive Control and Regret Analysis of Non-Stationary MDP with Look-ahead Information
- arxiv url: http://arxiv.org/abs/2409.08434v1
- Date: Fri, 13 Sep 2024 00:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:17:42.951926
- Title: Predictive Control and Regret Analysis of Non-Stationary MDP with Look-ahead Information
- Title(参考訳): ルックアヘッド情報を用いた非定常MDPの予測制御とレグレト解析
- Authors: Ziyi Zhang, Yorie Nakahira, Guannan Qu,
- Abstract要約: 本研究では,非定常型MDPにおいて,ルックアヘッド予測を組み込むことで,低い後悔度を実現するアルゴリズムを提案する。
我々の理論的分析は、ある仮定の下では、ルックアヘッドウィンドウが拡大するにつれて、後悔は指数関数的に減少することを示している。
非定常環境におけるアルゴリズムの有効性を確認するため,シミュレーションにより本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 11.679770353558041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy design in non-stationary Markov Decision Processes (MDPs) is inherently challenging due to the complexities introduced by time-varying system transition and reward, which make it difficult for learners to determine the optimal actions for maximizing cumulative future rewards. Fortunately, in many practical applications, such as energy systems, look-ahead predictions are available, including forecasts for renewable energy generation and demand. In this paper, we leverage these look-ahead predictions and propose an algorithm designed to achieve low regret in non-stationary MDPs by incorporating such predictions. Our theoretical analysis demonstrates that, under certain assumptions, the regret decreases exponentially as the look-ahead window expands. When the system prediction is subject to error, the regret does not explode even if the prediction error grows sub-exponentially as a function of the prediction horizon. We validate our approach through simulations, confirming the efficacy of our algorithm in non-stationary environments.
- Abstract(参考訳): 非定常マルコフ決定過程(MDP)における政策設計は、時間変化によるシステム遷移と報酬の複雑さにより本質的に困難であり、学習者が累積的将来の報酬を最大化する最適な行動を決定することは困難である。
幸運なことに、エネルギーシステムなどの多くの実用的な応用において、再生可能エネルギーの発生と需要の予測を含むルックアヘッド予測が利用可能である。
本稿では,これらのルックアヘッド予測を活用し,そのような予測を組み込むことで,非定常的MDPの低後悔を実現するアルゴリズムを提案する。
我々の理論的分析は、ある仮定の下では、ルックアヘッドウィンドウが拡大するにつれて、後悔は指数関数的に減少することを示している。
システム予測がエラーとなると、予測誤差が予測水平線の関数として指数的に増大しても、後悔は爆発しない。
非定常環境におけるアルゴリズムの有効性を確認するため,シミュレーションにより本手法の有効性を検証した。
関連論文リスト
- Calibrated Probabilistic Forecasts for Arbitrary Sequences [58.54729945445505]
実際のデータストリームは、分散シフトやフィードバックループ、敵アクターによって予測不可能に変化する可能性がある。
データがどのように進化するかに関わらず、有効な不確実性推定を保証するための予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T21:46:42Z) - Addressing Prediction Delays in Time Series Forecasting: A Continuous GRU Approach with Derivative Regularization [27.047129496488292]
地中構造観測を成功させる予測は、MSEが低いとしても実用的には意味がない。
本稿では,ニューラル常微分方程式(NODE)に基づく連続時間ゲートリカレントユニット(GRU)を導入する。
我々の手法は、MSE、動的時間ワープ(DTW)、時間歪み指数(TDI)などの指標で優れています。
論文 参考訳(メタデータ) (2024-06-29T05:36:04Z) - Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - Conformalized Multimodal Uncertainty Regression and Reasoning [0.9205582989348333]
本稿では,マルチモーダル(不連続)不確実性境界を予測できる軽量不確実性推定器を提案する。
本稿では,空飛ぶ領域対称性などの環境特性が多モード不確実性をもたらす視覚計測(VO)への応用について論じる。
論文 参考訳(メタデータ) (2023-09-20T02:40:59Z) - Propagating State Uncertainty Through Trajectory Forecasting [34.53847097769489]
軌道予測は(雑音の多い)上流の知覚によって入力が生成されるため不確実性に囲まれている。
ほとんどの軌道予測法は上流の不確かさを考慮せず、最も類似した値のみを取る。
本稿では,新しい統計的距離に基づく損失関数である軌道予測において,知覚状態の不確実性を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-07T08:51:16Z) - Distribution Preserving Multiple Hypotheses Prediction for Uncertainty
Modeling [0.0]
本稿では,複数の仮説予測手法を保存するための代替的損失を提案する。
実験により,本手法は,合成および実世界の動き予測データセット上でより代表的な仮説を導出することを示す。
提案手法の出力は, サンプリングに基づくモンテカルロ法で直接利用することができる。
論文 参考訳(メタデータ) (2021-10-06T15:36:17Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Learning to Predict Error for MRI Reconstruction [67.76632988696943]
提案手法による予測の不確実性は予測誤差と強く相関しないことを示す。
本稿では,2段階の予測誤差の目標ラベルと大小を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-13T15:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。