論文の概要: Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming
- arxiv url: http://arxiv.org/abs/2003.09708v2
- Date: Thu, 5 Nov 2020 01:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 12:51:26.867553
- Title: Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming
- Title(参考訳): 部分モデルによる深層強化学習の高速化:エネルギー効率の良い予測ビデオストリーミング
- Authors: Dong Liu, Jianyu Zhao, Chenyang Yang, Lajos Hanzo
- Abstract要約: 深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
- 参考スコア(独自算出の注目度): 97.75330397207742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive power allocation is conceived for energy-efficient video streaming
over mobile networks using deep reinforcement learning. The goal is to minimize
the accumulated energy consumption of each base station over a complete video
streaming session under the constraint that avoids video playback
interruptions. To handle the continuous state and action spaces, we resort to
deep deterministic policy gradient (DDPG) algorithm for solving the formulated
problem. In contrast to previous predictive power allocation policies that
first predict future information with historical data and then optimize the
power allocation based on the predicted information, the proposed policy
operates in an on-line and end-to-end manner. By judiciously designing the
action and state that only depend on slowly-varying average channel gains, we
reduce the signaling overhead between the edge server and the base stations,
and make it easier to learn a good policy. To further avoid playback
interruption throughout the learning process and improve the convergence speed,
we exploit the partially known model of the system dynamics by integrating the
concepts of safety layer, post-decision state, and virtual experiences into the
basic DDPG algorithm. Our simulation results show that the proposed policies
converge to the optimal policy that is derived based on perfect large-scale
channel prediction and outperform the first-predict-then-optimize policy in the
presence of prediction errors. By harnessing the partially known model, the
convergence speed can be dramatically improved.
- Abstract(参考訳): 深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングを実現する。
目的は、ビデオ再生中断を回避する制約の下で、全ビデオストリーミングセッションにおいて、各基地局の蓄積したエネルギー消費を最小化することである。
連続状態と行動空間を扱うために、定式化問題の解法としてDeep Deterministic Policy gradient (DDPG)アルゴリズムを用いる。
従来の予測パワーアロケーションポリシとは対照的に,提案ポリシは,まず過去のデータを用いて将来の情報を予測し,その予測情報に基づいて電力アロケーションを最適化する。
平均的なチャネルゲインにのみ依存するアクションとステートを司法的に設計することにより,エッジサーバと基地局間の信号のオーバーヘッドを低減し,優れたポリシの習得を容易にする。
さらに,学習過程の中断を回避し,収束速度を向上させるために,安全層,後処理状態,仮想体験の概念を基本的なDDPGアルゴリズムに統合することにより,システムダイナミクスの部分的に知られたモデルを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出された最適ポリシーに収束し,予測誤差が存在する場合の予測最適ポリシーよりも優れていた。
部分的に知られているモデルを利用することで、収束速度を劇的に改善することができる。
関連論文リスト
- Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System [2.0429716172112617]
本稿では,政策最適化アプローチとネット力学シミュレーションを統合した強化学習フレームワークを提案する。
状態遷移モデルは、状態推定と起動動作に合成不確実性を組み込むために検討される。
トレーニングされたポリシーは、個々のシナリオ上で実行される信頼性ベースの最適化で得られたものに近いキャプチャパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-11T20:09:05Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task
Video Analytics Pipeline [16.72264118199915]
ビデオ分析パイプラインは、高いデータレートと複雑な推論アルゴリズムに依存するため、エネルギー集約的である。
マルチタスクビデオ解析パイプラインのエネルギー使用を最小限に抑える適応解像度最適化フレームワークを提案する。
私たちのフレームワークは、YouTube-VISデータセットで同様の精度の全てのベースラインメソッドを大幅に上回りました。
論文 参考訳(メタデータ) (2021-04-09T15:44:06Z) - Hybrid Policy Learning for Energy-Latency Tradeoff in MEC-Assisted VR
Video Service [35.31115954442725]
モバイルエッジコンピューティングネットワーク上で、ワイヤレスマルチタイルVRビデオサービスの提供を検討する。
私たちはまず、時間によって変化するビューの人気をモデルフリーのマルコフチェーンとみなした。
次に、動的キャッシュ置換と決定論的オフロードを調整するためにハイブリッドポリシーが実装される。
論文 参考訳(メタデータ) (2021-04-02T13:17:11Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。