論文の概要: Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical
Report
- arxiv url: http://arxiv.org/abs/2104.06139v1
- Date: Tue, 13 Apr 2021 12:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:14:45.899888
- Title: Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical
Report
- Title(参考訳): mdps継続における長期平均報酬の最適化 : 技術報告
- Authors: Chao Xu, Yiping Xie, Xijun Wang, Howard H. Yang, Dusit Niyato, Tony Q.
S. Quek
- Abstract要約: 我々は,利用者が経験する情報鮮度とセンサが消費するエネルギーのバランスを揺るがした。
対応するステータス更新手順を継続的なマルコフ決定プロセス(MDP)としてキャストします。
次元の呪いを回避するため,我々は深層強化学習(DRL)アルゴリズムを設計するための方法論を確立した。
- 参考スコア(独自算出の注目度): 117.23323653198297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, we have shaken the balance between the information freshness, in
terms of age of information (AoI), experienced by users and energy consumed by
sensors, by appropriately activating sensors to update their current status in
caching enabled Internet of Things (IoT) networks [1]. To solve this problem,
we cast the corresponding status update procedure as a continuing Markov
Decision Process (MDP) (i.e., without termination states), where the number of
state-action pairs increases exponentially with respect to the number of
considered sensors and users. Moreover, to circumvent the curse of
dimensionality, we have established a methodology for designing deep
reinforcement learning (DRL) algorithms to maximize (resp. minimize) the
average reward (resp. cost), by integrating R-learning, a tabular reinforcement
learning (RL) algorithm tailored for maximizing the long-term average reward,
and traditional DRL algorithms, initially developed to optimize the discounted
long-term cumulative reward rather the average one. In this technical report,
we would present detailed discussions on the technical contributions of this
methodology.
- Abstract(参考訳): 近年,センサを適切に活性化し,キャッシング可能なモノのインターネット(IoT)ネットワークにおける現状を更新することにより,情報量(AoI)とセンサが消費するエネルギーとのバランスを揺るがしている。
この問題を解決するために、我々は、対応するステータス更新手順を継続するマルコフ決定プロセス(MDP)としてキャストし(すなわち、終了状態のない)、検討されたセンサやユーザ数に対して、状態-動作ペアの数が指数関数的に増加する。
さらに, 次元の呪いを回避するため, 深部強化学習(DRL)アルゴリズムを設計し (resp) 最大化するための手法を確立した。
最小) 平均的な報酬(報酬)。
R-ラーニングを統合することで、長期平均報酬の最大化に適した表強化学習(RL)アルゴリズムと、従来のDRLアルゴリズムが、当初、平均報酬よりも割引された長期累積報酬を最適化するために開発された。
本技術報告では,本方法論の技術的貢献について詳細な議論を行う。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Optimal Scheduling in IoT-Driven Smart Isolated Microgrids Based on Deep
Reinforcement Learning [10.924928763380624]
深部強化学習(DRL)によるモノ駆動マイクログリッド(MG)におけるディーゼル発電機(DG)のスケジューリング問題について検討する。
DRLエージェントは、過去の履歴再生およびロードデータから最適なポリシーを学習する。
目標は、需給バランスを確保するという前提で運用コストを削減することである。
論文 参考訳(メタデータ) (2023-04-28T23:52:50Z) - Deep Reinforcement Learning Based Multidimensional Resource Management
for Energy Harvesting Cognitive NOMA Communications [64.1076645382049]
エネルギー収穫(EH)、認知無線(CR)、非直交多重アクセス(NOMA)の組み合わせはエネルギー効率を向上させるための有望な解決策である。
本稿では,決定論的CR-NOMA IoTシステムにおけるスペクトル,エネルギー,時間資源管理について検討する。
論文 参考訳(メタデータ) (2021-09-17T08:55:48Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Proximal Deterministic Policy Gradient [20.951797549505986]
政治以外の強化学習(RL)アルゴリズムを改善するための2つの手法を提案する。
我々は、現在最先端のオフポリシーアルゴリズムでよく使われている2つの値関数を利用して、改善されたアクション値推定を提供する。
標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。
論文 参考訳(メタデータ) (2020-08-03T10:19:59Z) - Learning Centric Power Allocation for Edge Intelligence [84.16832516799289]
分散データを収集し、エッジで機械学習を実行するエッジインテリジェンスが提案されている。
本稿では,経験的分類誤差モデルに基づいて無線リソースを割り当てるLCPA法を提案する。
実験の結果,提案したLCPAアルゴリズムは,他のパワーアロケーションアルゴリズムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-21T07:02:07Z) - Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks [44.40722828581203]
オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
論文 参考訳(メタデータ) (2020-01-24T23:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。