論文の概要: Structured Reinforcement Learning for Media Streaming at the Wireless Edge
- arxiv url: http://arxiv.org/abs/2404.07315v1
- Date: Wed, 10 Apr 2024 19:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:48:02.397233
- Title: Structured Reinforcement Learning for Media Streaming at the Wireless Edge
- Title(参考訳): 無線エッジにおけるメディアストリーミングのための構造化強化学習
- Authors: Archana Bura, Sarat Chandra Bobbili, Shreyas Rameshkumar, Desik Rengarajan, Dileep Kalathil, Srinivas Shakkottai,
- Abstract要約: 本研究は,ビデオストリーミング環境における最適意思決定のための学習ベースのポリシーの開発と実証である。
政策設計問題を制約付きマルコフ決定問題 (CMDP) として定式化し、ラグランジアン緩和を用いることで、単一サイクル問題に分解できることを観察する。
具体的には,問題の構造を用いて導出される自然政策勾配(NPG)に基づくアルゴリズムが,グローバルな最適政策に収束することを示す。
- 参考スコア(独自算出の注目度): 15.742424623905825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Media streaming is the dominant application over wireless edge (access) networks. The increasing softwarization of such networks has led to efforts at intelligent control, wherein application-specific actions may be dynamically taken to enhance the user experience. The goal of this work is to develop and demonstrate learning-based policies for optimal decision making to determine which clients to dynamically prioritize in a video streaming setting. We formulate the policy design question as a constrained Markov decision problem (CMDP), and observe that by using a Lagrangian relaxation we can decompose it into single-client problems. Further, the optimal policy takes a threshold form in the video buffer length, which enables us to design an efficient constrained reinforcement learning (CRL) algorithm to learn it. Specifically, we show that a natural policy gradient (NPG) based algorithm that is derived using the structure of our problem converges to the globally optimal policy. We then develop a simulation environment for training, and a real-world intelligent controller attached to a WiFi access point for evaluation. We empirically show that the structured learning approach enables fast learning. Furthermore, such a structured policy can be easily deployed due to low computational complexity, leading to policy execution taking only about 15$\mu$s. Using YouTube streaming experiments in a resource constrained scenario, we demonstrate that the CRL approach can increase QoE by over 30%.
- Abstract(参考訳): メディアストリーミングは、無線エッジ(アクセス)ネットワーク上の支配的なアプリケーションである。
このようなネットワークのソフトウォー化の増大は、ユーザエクスペリエンスを高めるためにアプリケーション固有のアクションを動的に取り込む、インテリジェントな制御への取り組みにつながっている。
本研究の目的は、ビデオストリーミング環境でどのクライアントを動的に優先順位付けするかを決定するための最適な意思決定のための学習ベースのポリシーの開発と実証である。
政策設計問題を制約付きマルコフ決定問題 (CMDP) として定式化し、ラグランジアン緩和を用いることで、単一サイクル問題に分解できることを観察する。
さらに,ビデオバッファ長のしきい値を用いて,効率的な制約付き強化学習(CRL)アルゴリズムを設計して学習する。
具体的には,問題の構造を用いて導出される自然ポリシー勾配(NPG)に基づくアルゴリズムが,グローバルな最適ポリシーに収束することを示す。
次に、トレーニングのためのシミュレーション環境と、評価のためのWiFiアクセスポイントにアタッチされた現実世界のインテリジェントコントローラを開発する。
構造化学習アプローチが高速学習を可能にすることを実証的に示す。
さらに、そのような構造化されたポリシーは、計算の複雑さが低いために容易に展開でき、ポリシーの実行には15$\mu$sしかかからない。
リソース制約のあるシナリオでYouTubeストリーミング実験を使用することで、CRLアプローチがQoEを30%以上増加させることができることを示す。
関連論文リスト
- Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Deep Actor-Critic Learning for Distributed Power Control in Wireless
Mobile Networks [5.930707872313038]
深層強化学習は、教師付きディープラーニングと古典的な最適化に代わるモデルなしの代替手段を提供する。
本稿では,深いアクター・クリティカル・ラーニングの助けを借りて,分散的に実行された連続電力制御アルゴリズムを提案する。
提案した電力制御アルゴリズムを,携帯端末とチャネル条件が急速に変化するタイムスロットシステムに統合する。
論文 参考訳(メタデータ) (2020-09-14T18:29:12Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。