論文の概要: Self-Triggered Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2102.08571v1
- Date: Wed, 17 Feb 2021 04:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:39:02.304633
- Title: Self-Triggered Markov Decision Processes
- Title(参考訳): 自己トリガーマルコフ決定過程
- Authors: Yunhan Huang and Quanyan Zhu
- Abstract要約: 我々は、自己トリガー制御の概念がより汎用的なMDPモデルに拡張される自己トリガー戦略でマルコフ決定プロセス(MDP)を研究します。
制御政策とトリガー政策の協調設計問題について検討し、2つの事前定義されたコスト基準を最適化する。
- 参考スコア(独自算出の注目度): 29.440329760873087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study Markov Decision Processes (MDPs) with self-triggered
strategies, where the idea of self-triggered control is extended to more
generic MDP models. This extension broadens the application of self-triggering
policies to a broader range of systems. We study the co-design problems of the
control policy and the triggering policy to optimize two pre-specified cost
criteria. The first cost criterion is introduced by incorporating a
pre-specified update penalty into the traditional MDP cost criteria to reduce
the use of communication resources. Under this criteria, a novel dynamic
programming (DP) equation called DP equation with optimized lookahead to
proposed to solve for the self-triggering policy under this criteria. The
second self-triggering policy is to maximize the triggering time while still
guaranteeing a pre-specified level of sub-optimality. Theoretical underpinnings
are established for the computation and implementation of both policies.
Through a gridworld numerical example, we illustrate the two policies'
effectiveness in reducing sources consumption and demonstrate the trade-offs
between resource consumption and system performance.
- Abstract(参考訳): 本稿では、自己トリガー制御の概念をより汎用的なMDPモデルに拡張する自己トリガー戦略によるマルコフ決定プロセス(MDP)について検討する。
この拡張は、より広い範囲のシステムに自己引き起こすポリシーの適用を広げる。
制御政策とトリガー政策の協調設計問題について検討し、2つの事前定義されたコスト基準を最適化する。
最初のコスト基準は、通信リソースの使用を減らすために、所定の更新ペナルティを従来のmdpコスト基準に組み込むことによって導入された。
この基準の下で、最適化されたルックヘッドを持つDP方程式と呼ばれる新しい動的プログラミング(DP)方程式は、この基準の下で自己トリガ政策の解決を提案した。
第2のセルフトリガー政策は、事前定義されたサブ最適化レベルを保証しながらトリガー時間を最大化することである。
両方の政策の計算と実装のための理論的基盤が確立されている。
グリッドワールドの数値例を通して,資源消費削減における2つの政策の有効性を示し,資源消費とシステム性能のトレードオフを示す。
関連論文リスト
- Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems [1.8749305679160366]
スコア・アウェア・グラデーションMD(SAGE)と呼ばれるMDPの勾配の新たなファミリーを導入する。
決定の定常分布が指数族に属する場合、SAGEは値-関数推定なしで政策勾配を推定できる。
適切な仮定の下では、適切なポリシーに十分近づき始めた場合に、ポリシー段階の手法が最適なポリシーに大きく収束していることが示される。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Towards Optimal Pricing of Demand Response -- A Nonparametric
Constrained Policy Optimization Approach [2.345728642535161]
需要応答(DR)は、ピーク負荷を低減し、電力市場の需給側における不確実性を緩和する有効な方法であることが示されている。
DR研究の重要な問題のひとつは、電気負荷をピークからオフピーク時間にシフトさせるために、電気価格を適切に調整する方法である。
政策更新の安定性を確保しつつ、最適性を向上する革新的な非パラメトリック制約付き政策最適化手法を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:07:51Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints [8.840221198764482]
非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。
本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-28T07:18:29Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - OffCon$^3$: What is state of the art anyway? [20.59974596074688]
モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。
TD3 は DPG から派生したもので、決定論的ポリシーを用いて値関数に沿ってポリシー上昇を行う。
OffCon$3$は、両方のアルゴリズムの最先端バージョンを特徴とするコードベースである。
論文 参考訳(メタデータ) (2021-01-27T11:45:08Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。