論文の概要: Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge
- arxiv url: http://arxiv.org/abs/2407.09873v1
- Date: Sat, 13 Jul 2024 12:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:27:46.258171
- Title: Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge
- Title(参考訳): ネットワークエッジにおけるファウンデーションモデルの低レイテンシ協調微調整のための資源管理
- Authors: Hai Wu, Xu Chen, Kaibin Huang,
- Abstract要約: 大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
- 参考スコア(独自算出の注目度): 35.40849522296486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large-scale foundation models (FoMo's) that can perform human-like intelligence motivates their deployment at the network edge for devices to access state-of-the-art artificial intelligence. For better user experiences, the pre-trained FoMo's need to be adapted to specialized downstream tasks through fine-tuning techniques. To transcend a single device's memory and computation limitations, we advocate multi-device cooperation within the device-edge cooperative fine-tuning (DEFT) paradigm, where edge devices cooperate to simultaneously optimize different parts of fine-tuning parameters within a FoMo. However, the parameter blocks reside at different depths within a FoMo architecture, leading to varied computation latency-and-memory cost due to gradient backpropagation-based calculations. The heterogeneous on-device computation and memory capacities and channel conditions necessitate an integrated communication-and-computation allocation of local computation loads and communication resources to achieve low-latency (LoLa) DEFT. To this end, we consider the depth-ware DEFT block allocation problem. The involved optimal block-device matching is tackled by the proposed low-complexity Cutting-RecoUNting-CHecking (CRUNCH) algorithm, which is designed by exploiting the monotone-increasing property between block depth and computation latency-and-memory cost. Next, the joint bandwidth-and-block allocation makes the problem more sophisticated. We observe a splittable Lagrangian expression through the transformation and analysis of the original problem, where the variables indicating device involvement are introduced. Then, the dual ascent method is employed to tackle this problem iteratively. Through extensive experiments conducted on the GLUE benchmark, our results demonstrate significant latency reduction achievable by LoLa DEFT for fine-tuning a RoBERTa model.
- Abstract(参考訳): ヒューマンライクなインテリジェンスを実現する大規模なファンデーションモデル(FoMo)の出現は、デバイスが最先端の人工知能にアクセスするためのネットワークエッジへのデプロイメントを動機付けている。
より良いユーザー体験を得るためには、訓練済みのFoMoは、微調整技術により、特定の下流タスクに適応する必要がある。
単一デバイスのメモリと計算の制限を超越するために、エッジデバイスがFoMo内の様々な微調整パラメータを同時に最適化する、デバイスエッジ協調微調整(DEFT)パラダイムにおけるマルチデバイス協調を提唱する。
しかし、パラメータブロックはFoMoアーキテクチャ内の異なる深さに存在するため、勾配のバックプロパゲーションに基づく計算によって計算遅延とメモリコストが変化する。
ヘテロジニアスなオンデバイス計算とメモリ容量とチャネル条件は、ローレイテンシ(LoLa)DEFTを実現するために、ローカルな計算負荷と通信リソースの統合的な通信・計算割り当てを必要とする。
そこで本研究では,Deep-ware DEFTブロック割り当て問題について考察する。
ブロック深さと計算遅延・メモリコストの間のモノトン増加特性を利用したCRUNCHアルゴリズムを提案する。
次に、結合帯域とブロックの割り当てにより、この問題はより洗練されたものになる。
本稿では,デバイスが関与することを示す変数が導入された元の問題の変換と解析を通じて,分割可能なラグランジアン表現を観察する。
次に、この問題に反復的に取り組むために二重昇華法を用いる。
GLUEベンチマークで行った広範囲な実験により,LoLa DEFTによりRoBERTaモデルの微調整が可能となった。
関連論文リスト
- A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Over-the-Air Multi-Task Federated Learning Over MIMO Interference
Channel [17.362158131772127]
We study over-the-air multi-task FL (OA-MTFL) over the multiple-input multiple-output (MIMO) interference channel。
そこで本研究では,各デバイスに局所勾配をアライメントするモデルアグリゲーション手法を提案する。
新たなモデルアグリゲーション手法を用いることで,デバイス選択はもはや我々の計画に必須ではないことを示す。
論文 参考訳(メタデータ) (2021-12-27T10:42:04Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。