論文の概要: TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks
- arxiv url: http://arxiv.org/abs/2405.03990v1
- Date: Tue, 7 May 2024 04:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 15:28:42.104899
- Title: TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks
- Title(参考訳): TrimCaching: 無線エッジネットワークにおけるパラメータ共有AIモデルキャッシュ
- Authors: Guanqiao Qu, Zheng Lin, Fangming Liu, Xianhao Chen, Kaibin Huang,
- Abstract要約: 次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。
エッジサーバにモデルをキャッシュすることで、モバイルネットワークは、低レイテンシでエンドユーザにモデルを配信することができる。
我々はパラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置方式を開発する。
- 参考スコア(独自算出の注目度): 36.39118138582416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next-generation mobile networks are expected to facilitate fast AI model downloading to end users. By caching models on edge servers, mobile networks can deliver models to end users with low latency, resulting in a paradigm called edge model caching. In this paper, we develop a novel model placement scheme, called parameter-sharing model caching (TrimCaching). TrimCaching exploits the key observation that a wide range of AI models, such as convolutional neural networks or large language models, can share a significant proportion of parameter blocks containing reusable knowledge, thereby improving storage efficiency. To this end, we formulate a parameter-sharing model placement problem to maximize the cache hit ratio in multi-edge wireless networks by balancing the fundamental tradeoff between storage efficiency and service latency. We show that the formulated problem is a submodular maximization problem with submodular constraints, for which no polynomial-time approximation algorithm exists. To overcome this challenge, we study an important special case, where a small fixed number of parameter blocks are shared across models, which often holds in practice. In such a case, a polynomial-time algorithm with $\left(1-\epsilon\right)/2$-approximation guarantee is developed. Subsequently, we address the original problem for the general case by developing a greedy algorithm. Simulation results demonstrate that the proposed TrimCaching framework significantly improves the cache hit ratio compared with state-of-the-art content caching without exploiting shared parameters in AI models.
- Abstract(参考訳): 次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。
エッジサーバにモデルをキャッシュすることで、モバイルネットワークは低レイテンシでエンドユーザにモデルを配信することが可能になる。
本稿では,パラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置手法を提案する。
TrimCachingは、畳み込みニューラルネットワークや大規模言語モデルといった幅広いAIモデルが、再利用可能な知識を含むパラメータブロックのかなりの割合を共有できるため、ストレージ効率が向上する、という重要な観察を活用する。
この目的のために、ストレージ効率とサービスレイテンシの基本的なトレードオフをバランスさせて、パラメータ共有モデル配置問題を定式化し、マルチエッジ無線ネットワークにおけるキャッシュヒット率を最大化する。
定式化問題は、多項式時間近似アルゴリズムが存在しない部分モジュラー制約を持つ部分モジュラー最大化問題であることを示す。
この課題を克服するために、モデル間で少数のパラメータブロックが共有される重要なケースについて検討する。
そのような場合、$\left(1-\epsilon\right)/2$-approximationが保証される多項式時間アルゴリズムを開発する。
その後、グリーディアルゴリズムを考案し、一般事例の原問題に対処する。
シミュレーションの結果,提案したTrimCachingフレームワークは,AIモデルで共有パラメータを利用することなく,最先端のコンテンツキャッシュと比較してキャッシュヒット率を大幅に向上することが示された。
関連論文リスト
- Resource-Efficient Generative AI Model Deployment in Mobile Edge Networks [15.958822667638405]
エッジ上の利用可能なリソースの不足は、生成AIモデルをデプロイする上で大きな課題を生じさせる。
我々は、エッジ上に生成するAIモデルのデプロイメントを適切に管理することを目的とした、協調的なエッジクラウドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-09T03:17:28Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Multi-fidelity surrogate modeling using long short-term memory networks [0.0]
パラメタライズされた時間依存問題に対する多要素代理モデリングの新しいデータ駆動フレームワークを提案する。
提案した多要素LSTMネットワークは, シングルフィデリティ回帰を著しく向上するだけでなく, フィードフォワードニューラルネットワークに基づくマルチフィデリティモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-05T12:05:02Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Neural Closure Models for Dynamical Systems [35.000303827255024]
低忠実度モデルに対する非マルコフ閉閉パラメータ化を学習する新しい手法を開発した。
ニューラルクロージャモデル」はニューラル遅延微分方程式(nDDE)を用いた低忠実度モデルを強化する
非マルコヴィアンオーバーマルコヴィアンクロージャを使用することで、長期的精度が向上し、より小さなネットワークが必要であることを示した。
論文 参考訳(メタデータ) (2020-12-27T05:55:33Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Artificial Intelligence Assisted Collaborative Edge Caching in Small
Cell Networks [19.605382256630538]
本稿では、エッジノードにおける異種キャッシュモデルを持つユーザの異種コンテンツ嗜好について考察する。
複雑な制約問題を妥当な時間で効率的に解決する修正粒子群最適化(M-PSO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T10:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。