Fugu-MT 論文翻訳(概要): Attention-Enhanced Prioritized Proximal Policy Optimization for Adaptive Edge Caching

論文の概要: Attention-Enhanced Prioritized Proximal Policy Optimization for Adaptive Edge Caching

arxiv url: http://arxiv.org/abs/2402.14576v3
Date: Wed, 30 Oct 2024 16:06:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.954853
Title: Attention-Enhanced Prioritized Proximal Policy Optimization for Adaptive Edge Caching
Title（参考訳）: 適応エッジキャッシングのための注意力強化された優先順位付きプロキシポリシー最適化
Authors: Farnaz Niknia, Ping Wang, Zixu Wang, Aakash Agarwal, Adib S. Rezaei,
Abstract要約: 本稿では,PPO(Proximal Policy Optimization)に基づくキャッシュ方式を提案する。本手法は近年のDeep Reinforcement Learning-based Techniqueより優れている。
参考スコア（独自算出の注目度）: 4.2579244769567675
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper tackles the growing issue of excessive data transmission in networks. With increasing traffic, backhaul links and core networks are under significant traffic, leading to the investigation of caching solutions at edge routers. Many existing studies utilize Markov Decision Processes (MDP) to tackle caching problems, often assuming decision points at fixed intervals; however, real-world environments are characterized by random request arrivals. Additionally, critical file attributes such as lifetime, size, and priority significantly impact the effectiveness of caching policies, yet existing research fails to integrate all these attributes in policy design. In this work, we model the caching problem using a Semi-Markov Decision Process (SMDP) to better capture the continuous-time nature of real-world applications, enabling caching decisions to be triggered by random file requests. We then introduce a Proximal Policy Optimization (PPO)--based caching strategy that fully considers file attributes like lifetime, size, and priority. Simulations show that our method outperforms a recent Deep Reinforcement Learning-based technique. To further advance our research, we improved the convergence rate of PPO by prioritizing transitions within the replay buffer through an attention mechanism. This mechanism evaluates the similarity between the current state and all stored transitions, assigning higher priorities to transitions that exhibit greater similarity.
Abstract（参考訳）: 本稿では,ネットワークにおける過剰なデータ伝送の問題に対処する。トラフィックの増加に伴い、バックホールリンクとコアネットワークは大きなトラフィックを受けており、エッジルータでのキャッシュソリューションの調査につながっている。既存の多くの研究はキャッシュ問題に対処するためにマルコフ決定プロセス(MDP)を用いており、しばしば一定間隔で決定点を仮定するが、現実の環境はランダムな要求の到着によって特徴づけられる。さらに、寿命、サイズ、優先度などの重要なファイル属性は、キャッシュポリシーの有効性に大きな影響を及ぼすが、既存の研究では、これらすべての属性をポリシー設計に統合することはできなかった。本研究では,Semi-Markov Decision Process (SMDP) を用いてキャッシュ問題をモデル化し,実世界のアプリケーションの継続的特性をよりよく把握し,ランダムなファイル要求によってキャッシュ決定が引き起こされるようにする。次に、寿命、サイズ、優先度といったファイル属性を完全に考慮したPPOベースのキャッシュ戦略を紹介します。シミュレーションにより,本手法は近年のDeep Reinforcement Learning-based Techniqueより優れていることが示された。研究をさらに進めるために,リプレイバッファ内の遷移をアテンション機構によって優先順位付けすることで,PPOの収束率を向上した。このメカニズムは、現在の状態とすべての保存された遷移との類似性を評価し、より高い類似性を示す遷移により高い優先順位を割り当てる。

関連論文リスト

Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
CacheMamba: Popularity Prediction for Mobile Edge Caching Networks via Selective State Spaces [6.895209729810318]
モバイルエッジキャッシング(MEC)は、エッジサーバ上で頻繁に要求されるコンテンツを動的にキャッシュすることによって、データ集約型サービスのレイテンシを軽減する上で、重要な役割を果たす。本稿では,意図したファイルの時系列要求データを活用することで,MECにおける人気予測の問題を検討する。本稿では,状態空間モデル(SSM)に基づくアーキテクチャであるMambaを用いて,要求される確率が最も高いトップKファイルを識別するCacheMambaモデルを提案する。
論文参考訳（メタデータ） (2025-02-09T05:57:59Z)
Edge Caching Optimization with PPO and Transfer Learning for Dynamic Environments [3.720975664058743]
動的環境においては、コンテンツの人気の変化や要求率の変化が頻繁に発生し、事前学習されたポリシーが以前の条件に最適化されているため、効果が低下する。我々は,コンテンツの人気と要求率の変化を検知し,キャッシュ戦略のタイムリーな調整を確保する機構を開発する。また,事前知識を活用して,新しい環境における収束を加速する伝達学習に基づくPPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T21:01:29Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
An Online Gradient-Based Caching Policy with Logarithmic Complexity and Regret Guarantees [13.844896723580858]
我々は、対数計算の複雑さを突破するグラデーションベースのオンラインキャッシュポリシーを新たに導入する。この進歩により、何百万ものリクエストやアイテムを伴って、大規模で現実世界のトレース上でポリシーをテストすることができます。
論文参考訳（メタデータ） (2024-05-02T13:11:53Z)
A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。 HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文参考訳（メタデータ） (2024-02-05T08:06:03Z)
SEAM: Searching Transferable Mixed-Precision Quantization Policy through Large Margin Regularization [50.04951511146338]
混合精度量子化(MPQ)は各層に対して最適なビット幅割り当てを求めるのに時間を要する。本稿では,小規模なプロキシデータセットを用いて効率的なMPQポリシーを効率的に検索する手法を提案する。
論文参考訳（メタデータ） (2023-02-14T05:47:45Z)
Optimistic No-regret Algorithms for Discrete Caching [6.182368229968862]
楽観的な学習の文脈において,ファイル全体を限られた容量でキャッシュに格納するという問題を体系的に検討する。予測支援オンラインキャッシュのための普遍的な下位境界を提供し、様々なパフォーマンス・複雑さのトレードオフを持つ一連のポリシーを設計する。我々の結果は、最近提案されたすべてのオンラインキャッシュポリシーを大幅に改善し、オラクルの予測を活用できないため、後悔する$O(sqrtT)しか提供できません。
論文参考訳（メタデータ） (2022-08-15T09:18:41Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Distributed Reinforcement Learning for Privacy-Preserving Dynamic Edge Caching [91.50631418179331]
MECネットワークにおけるデバイスのキャッシュヒット率を最大化するために,プライバシ保護型分散ディープポリシー勾配(P2D3PG)を提案する。分散最適化をモデルフリーなマルコフ決定プロセス問題に変換し、人気予測のためのプライバシー保護フェデレーション学習手法を導入する。
論文参考訳（メタデータ） (2021-10-20T02:48:27Z)
Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文参考訳（メタデータ） (2020-10-20T23:25:42Z)
Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-05-19T01:23:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。