論文の概要: Edge Caching Based on Deep Reinforcement Learning and Transfer Learning
- arxiv url: http://arxiv.org/abs/2402.14576v2
- Date: Fri, 1 Mar 2024 00:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:41:40.806387
- Title: Edge Caching Based on Deep Reinforcement Learning and Transfer Learning
- Title(参考訳): 深層強化学習と転送学習に基づくエッジキャッシング
- Authors: Farnaz Niknia, Ping Wang, Zixu Wang, Aakash Agarwal and Adib S. Rezaei
- Abstract要約: トラフィックの急増はバックホールリンクやバックボーンネットワークを歪め、エッジルータでのキャッシュソリューションの探索を促した。
半マルコフ決定プロセス(SMDP)を用いてキャッシング問題を定式化し、実世界のシナリオの連続的な性質に対応する。
本稿では、生涯、サイズ、重要性といったファイルの特徴を包括的に考慮した、ダブルディープQラーニングに基づくキャッシュ手法を提案する。
- 参考スコア(独自算出の注目度): 4.568097048023971
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses the escalating challenge of redundant data transmission
in networks. The surge in traffic has strained backhaul links and backbone
networks, prompting the exploration of caching solutions at the edge router.
Existing work primarily relies on Markov Decision Processes (MDP) for caching
issues, assuming fixed-time interval decisions; however, real-world scenarios
involve random request arrivals, and despite the critical role of various file
characteristics in determining an optimal caching policy, none of the related
existing work considers all these file characteristics in forming a caching
policy. In this paper, first, we formulate the caching problem using a
semi-Markov Decision Process (SMDP) to accommodate the continuous-time nature
of real-world scenarios allowing for caching decisions at random times upon
file requests. Then, we propose a double deep Q-learning-based caching approach
that comprehensively accounts for file features such as lifetime, size, and
importance. Simulation results demonstrate the superior performance of our
approach compared to a recent Deep Reinforcement Learning-based method.
Furthermore, we extend our work to include a Transfer Learning (TL) approach to
account for changes in file request rates in the SMDP framework. The proposed
TL approach exhibits fast convergence, even in scenarios with increased
differences in request rates between source and target domains, presenting a
promising solution to the dynamic challenges of caching in real-world
environments.
- Abstract(参考訳): 本稿では,ネットワークにおける冗長データ伝送のエスカレート問題に対処する。
トラフィックの急増はバックホールリンクとバックボーンネットワークを圧迫し、エッジルータでのキャッシュソリューションの探求を促した。
しかし、現実世界のシナリオではランダムな要求が到着し、最適なキャッシングポリシーを決定するのに様々なファイル特性が重要な役割を担っているにもかかわらず、キャッシュポリシーを形成する際にこれらのファイル特性をすべて考慮していない。
本稿では,まず,半マルコフ決定プロセス(smdp)を用いてキャッシング問題を定式化し,ファイル要求時にランダムにキャッシングを行う実世界のシナリオの連続時間的性質に対応する。
そこで本研究では,生涯,サイズ,重要度などのファイル特徴を包括的に考慮した,深層Q-ラーニングに基づくキャッシュ手法を提案する。
シミュレーションの結果,最近の深層強化学習法と比較して,本手法の優れた性能を示す。
さらに、SMDPフレームワークにおけるファイル要求率の変化を考慮するために、Transfer Learning(TL)アプローチを含めるように作業を拡張します。
提案したTLアプローチは,ソースドメインとターゲットドメイン間の要求レートの差が増加するシナリオにおいても高速収束を示し,実環境におけるキャッシュの動的な課題に対する,有望な解決策を提供する。
関連論文リスト
- Edge Caching Optimization with PPO and Transfer Learning for Dynamic Environments [3.720975664058743]
動的環境においては、コンテンツの人気の変化や要求率の変化が頻繁に発生し、事前学習されたポリシーが以前の条件に最適化されているため、効果が低下する。
我々は,コンテンツの人気と要求率の変化を検知し,キャッシュ戦略のタイムリーな調整を確保する機構を開発する。
また,事前知識を活用して,新しい環境における収束を加速する伝達学習に基づくPPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T21:01:29Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - An Online Gradient-Based Caching Policy with Logarithmic Complexity and Regret Guarantees [13.844896723580858]
我々は、対数計算の複雑さを突破するグラデーションベースのオンラインキャッシュポリシーを新たに導入する。
この進歩により、何百万ものリクエストやアイテムを伴って、大規模で現実世界のトレース上でポリシーをテストすることができます。
論文 参考訳(メタデータ) (2024-05-02T13:11:53Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - SEAM: Searching Transferable Mixed-Precision Quantization Policy through
Large Margin Regularization [50.04951511146338]
混合精度量子化(MPQ)は各層に対して最適なビット幅割り当てを求めるのに時間を要する。
本稿では,小規模なプロキシデータセットを用いて効率的なMPQポリシーを効率的に検索する手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T05:47:45Z) - Optimistic No-regret Algorithms for Discrete Caching [6.182368229968862]
楽観的な学習の文脈において,ファイル全体を限られた容量でキャッシュに格納するという問題を体系的に検討する。
予測支援オンラインキャッシュのための普遍的な下位境界を提供し、様々なパフォーマンス・複雑さのトレードオフを持つ一連のポリシーを設計する。
我々の結果は、最近提案されたすべてのオンラインキャッシュポリシーを大幅に改善し、オラクルの予測を活用できないため、後悔する$O(sqrtT)しか提供できません。
論文 参考訳(メタデータ) (2022-08-15T09:18:41Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge
Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。
分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文 参考訳(メタデータ) (2021-10-20T02:48:27Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。