論文の概要: Stochastic Dynamic Power Dispatch with High Generalization and Few-Shot
Adaption via Contextual Meta Graph Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.12235v1
- Date: Fri, 19 Jan 2024 13:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:04:56.323821
- Title: Stochastic Dynamic Power Dispatch with High Generalization and Few-Shot
Adaption via Contextual Meta Graph Reinforcement Learning
- Title(参考訳): 文脈メタグラフ強化学習による高一般化とFew-Shot適応による確率的動的パワーディスパッチ
- Authors: Bairong Deng, Tao Yu, Zhenning Pan, Xuehan Zhang, Yufeng Wu, Qiaoyi
Ding
- Abstract要約: 高度に一般化された多段階最適ディスパッチポリシのためのコンテキストメタグラフ強化学習(Meta-GRL)を提案する。
異なるディスパッチシナリオのコンテキストを符号化し,下位ポリシー学習者がコンテキスト特定ディスパッチポリシーを学習している間に,ディスパッチタスク識別の方法を学ぶために,上位メタラーナを提案する。
十分なオフライン学習の後、このアプローチはメタラーナーによって生成された仮説の判断をわずかに上乗せするだけで、目に見えない、未定義のシナリオに迅速に適応することができる。
- 参考スコア(独自算出の注目度): 7.251065697936476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning is an emerging approaches to facilitate multi-stage
sequential decision-making problems. This paper studies a real-time multi-stage
stochastic power dispatch considering multivariate uncertainties. Current
researches suffer from low generalization and practicality, that is, the
learned dispatch policy can only handle a specific dispatch scenario, its
performance degrades significantly if actual samples and training samples are
inconsistent. To fill these gaps, a novel contextual meta graph reinforcement
learning (Meta-GRL) for a highly generalized multi-stage optimal dispatch
policy is proposed. Specifically, a more general contextual Markov decision
process (MDP) and scalable graph representation are introduced to achieve a
more generalized multi-stage stochastic power dispatch modeling. An upper
meta-learner is proposed to encode context for different dispatch scenarios and
learn how to achieve dispatch task identification while the lower policy
learner learns context-specified dispatch policy. After sufficient offline
learning, this approach can rapidly adapt to unseen and undefined scenarios
with only a few updations of the hypothesis judgments generated by the
meta-learner. Numerical comparisons with state-of-the-art policies and
traditional reinforcement learning verify the optimality, efficiency,
adaptability, and scalability of the proposed Meta-GRL.
- Abstract(参考訳): 強化学習は、多段階的な意思決定問題を解決するための新しいアプローチである。
本稿では,多変量不確実性を考慮したリアルタイム多段確率パワーディスパッチについて検討する。
現状の研究では,学習されたディスパッチポリシは特定のディスパッチシナリオのみを扱うことができ,実際のサンプルとトレーニングサンプルが矛盾している場合,その性能は著しく低下する。
これらのギャップを埋めるために、高度に一般化された多段階最適ディスパッチポリシーのためのコンテキストメタグラフ強化学習(Meta-GRL)を提案する。
具体的には、より一般化されたマルチステージ確率パワーディスパッチモデリングを実現するために、より一般的なコンテキストマルコフ決定プロセス(MDP)とスケーラブルグラフ表現を導入する。
異なるディスパッチシナリオのコンテキストを符号化し、下位ポリシー学習者がコンテキスト特定ディスパッチポリシーを学習している間に、ディスパッチタスク識別の方法を学ぶ。
十分なオフライン学習の後、このアプローチはメタリーナーによって生成された仮説判断のほんの少しのアップドレーションだけで、未認識で未定義のシナリオに迅速に適応することができる。
最新のポリシーと従来の強化学習との比較は、提案されたメタgrlの最適性、効率性、適応性、拡張性を検証する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Sequential Knockoffs for Variable Selection in Reinforcement Learning [19.925653053430395]
マルコフ決定過程(MDP)における十分最小状態の概念を導入する。
本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:39:06Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。