論文の概要: Reinforcement Learning Based Cooperative Coded Caching under Dynamic
Popularities in Ultra-Dense Networks
- arxiv url: http://arxiv.org/abs/2003.03758v1
- Date: Sun, 8 Mar 2020 10:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:47:27.815716
- Title: Reinforcement Learning Based Cooperative Coded Caching under Dynamic
Popularities in Ultra-Dense Networks
- Title(参考訳): 超高密度ネットワークにおける動的人気下での強化学習に基づく協調コーデック
- Authors: Shen Gao, Peihao Dong, Zhiwen Pan, Geoffrey Ye Li
- Abstract要約: 小規模基地局(SBS)のキャッシュ戦略は、膨大なデータレート要求を満たすために重要である。
我々は、強化学習(RL)を利用して、最大距離分離可能(MDS)符号化による協調的なキャッシュ戦略を設計する。
- 参考スコア(独自算出の注目度): 38.44125997148742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For ultra-dense networks with wireless backhaul, caching strategy at small
base stations (SBSs), usually with limited storage, is critical to meet massive
high data rate requests. Since the content popularity profile varies with time
in an unknown way, we exploit reinforcement learning (RL) to design a
cooperative caching strategy with maximum-distance separable (MDS) coding. We
model the MDS coding based cooperative caching as a Markov decision process to
capture the popularity dynamics and maximize the long-term expected cumulative
traffic load served directly by the SBSs without accessing the macro base
station. For the formulated problem, we first find the optimal solution for a
small-scale system by embedding the cooperative MDS coding into Q-learning. To
cope with the large-scale case, we approximate the state-action value function
heuristically. The approximated function includes only a small number of
learnable parameters and enables us to propose a fast and efficient
action-selection approach, which dramatically reduces the complexity. Numerical
results verify the optimality/near-optimality of the proposed RL based
algorithms and show the superiority compared with the baseline schemes. They
also exhibit good robustness to different environments.
- Abstract(参考訳): 無線バックホールを持つ超高密度ネットワークでは、通常ストレージが限られている小規模基地局(sbss)でのキャッシュ戦略は、膨大なデータレート要求を満たすために不可欠である。
コンテンツ人気プロファイルは時間によって異なるため、強化学習(RL)を利用して、最大距離分離可能(MDS)符号化による協調キャッシュ戦略を設計する。
我々はMDS符号化に基づく協調キャッシュをマルコフ決定プロセスとしてモデル化し、マクロ基地局にアクセスせずにSBSが直接提供する長期予測累積トラフィック負荷を最大化する。
定式化問題に対しては,まず,協調型mds符号化をq-learningに組み込むことにより,小規模システムの最適解を求める。
大規模事例に対応するために, 状態動作値関数をヒューリスティックに近似する。
近似関数は、学習可能なパラメータをほんの数個含むだけで、より高速で効率的なアクション選択アプローチを提案し、複雑さを劇的に低減します。
数値計算により提案したRLアルゴリズムの最適性と近距離最適性を検証し,ベースライン方式と比較して優位性を示す。
また、異なる環境に対して優れた堅牢性を示す。
関連論文リスト
- A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration [12.914011030970814]
マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
論文 参考訳(メタデータ) (2023-12-26T18:04:49Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting
Multiple Access [53.191806757701215]
本稿では,トランスミッタ(CSIT)における部分チャネル状態情報を持つRSMAプリコーダを直接最適化するために,メタラーニングに基づく事前コーダ最適化フレームワークを提案する。
コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。
数値的な結果から,メタラーニングに基づく解は,中規模シナリオにおける従来のプリコーダ最適化に類似したASR性能を実現し,大規模シナリオにおける準最適低複雑性プリコーダアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-07-17T20:31:41Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
マルチオブジェクトベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ消費量,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - Caching Placement and Resource Allocation for Cache-Enabling UAV NOMA
Networks [87.6031308969681]
本稿では,非直交多重アクセス(NOMA)をサポートした大規模アクセス機能を有する無人航空機(UAV)セルネットワークについて検討する。
コンテンツ配信遅延最小化のための長期キャッシュ配置と資源配分最適化問題をマルコフ決定プロセス(MDP)として定式化する。
そこで我々は,UAVがemphsoft $varepsilon$-greedy戦略を用いて行動の学習と選択を行い,行動と状態の最適な一致を探索する,Qラーニングに基づくキャッシュ配置とリソース割り当てアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-12T08:33:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。