論文の概要: Taming Asynchronous CPU-GPU Coupling for Frequency-aware Latency Estimation on Mobile Edge
- arxiv url: http://arxiv.org/abs/2604.15357v1
- Date: Sat, 11 Apr 2026 12:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.543077
- Title: Taming Asynchronous CPU-GPU Coupling for Frequency-aware Latency Estimation on Mobile Edge
- Title(参考訳): モバイルエッジ上での周波数認識レイテンシ推定のための非同期CPU-GPU結合の処理
- Authors: Jiesong Chen, Jun You, Zhidan Liu, Zhenjiang Li,
- Abstract要約: 周波数の組み合わせ間での推測遅延を正確に推定するためにFLAMEを導入する。
重なり合う並列性を定量化し、動的パイプラインバブルを集約する、新しいレイヤワイズ・モデリングが特徴である。
FLAMEの正確なモデリングにより、サンプルの粗いサブセットをプロファイリングし、数時間から数分でプロファイリングを切断し、SLMプロファイリングを数日からほんの数分で行うことができる。
- 参考スコア(独自算出の注目度): 5.2773045718276705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise estimation of model inference latency is crucial for time-critical mobile edge applications, enabling devices to calculate latency margins against deadlines and trade them for enhanced model performance or resource savings. However, the ubiquity of Dynamic Voltage and Frequency Scaling (DVFS) renders traditional static profiling invalid in real-world deployments, as inference latency fluctuates with varying processor (CPU and GPU) frequencies. While extensive profiling across frequency combinations is theoretically possible, it is prohibitively expensive, particularly for emerging Small Language Models (SLMs), where variable context lengths explode the profiling up to days. We observe that simple analytic scaling fails to predict these fluctuations due to the complex asynchronous coupling between CPU (kernel launching) and GPU (execution). In this paper, we introduce FLAME to accurately estimate inference latency across frequency combinations. It features a novel layer-wise modeling that quantifies the overlapping parallelism and then aggregates dynamic pipeline bubbles caused by asynchronous processor interactions when extending to the full model. This bottom-up approach ensures generalizability across diverse models from DNNs to SLMs, and its precise modeling allows for profiling a sparse subset of samples, cutting DNN profiling from hours to minutes and SLM profiling from days to mere minutes, while maintaining small estimation errors across frequencies. We further showcase FLAME's utility in a deadline-aware DVFS, outperforming the state-of-the-art approach in both power efficiency and latency guarantees.
- Abstract(参考訳): モデル推論レイテンシの正確な推定は、時間クリティカルなモバイルエッジアプリケーションにとって不可欠であり、デバイスは期限に対するレイテンシマージンを計算し、モデルパフォーマンスの向上やリソース節約のためにそれらを交換することができる。
しかし、動的電圧と周波数スケーリング(DVFS)の用途は、様々なプロセッサ(CPUとGPU)の周波数で推論レイテンシが変動するため、現実のデプロイメントにおいて従来の静的プロファイリングを無効にする。
周波数の組み合わせにまたがる広範なプロファイリングは理論的には可能であるが、特にSLM(Small Language Models)において、変数のコンテキスト長が数日にわたってプロファイリングを爆発させるような場合、非常に高価である。
単純な解析スケーリングでは、CPU(カーネル起動)とGPU(実行)の複雑な非同期結合が原因で、これらの変動を予測することができない。
本稿では,周波数の組み合わせ間での推測遅延を正確に推定するFLAMEを提案する。
重複する並列性を定量化し、フルモデルに拡張する際に非同期プロセッサの相互作用によって引き起こされる動的パイプラインバブルを集約する、新しいレイヤワイズ・モデリングが特徴である。
このボトムアップアプローチは、DNNからSLMまで多様なモデルにまたがる一般化性を保証し、その正確なモデリングにより、サンプルの粗いサブセットをプロファイリングし、DNNプロファイリングを数時間から数分、SLMプロファイリングを数日から数分に短縮し、周波数にわたって小さな推定誤差を維持することができる。
さらに、FLAMEの実用性を期限対応のDVFSで示し、電力効率とレイテンシ保証の両方において最先端のアプローチよりも優れています。
関連論文リスト
- FreqFlow: Long-term forecasting using lightweight flow matching [3.5235875824926346]
本稿では、周波数領域における条件付きフローマッチングを利用して決定論的MSS予測を行う新しいフレームワークであるFreqFlowを紹介する。
FreqFlowは予測問題をスペクトル領域に変換し、振幅と位相シフトをモデル化する。
実世界のトラフィック速度、ボリューム、フローデータセットに関する実験は、FreqFlowが最先端の予測性能を達成することを実証している。
論文 参考訳(メタデータ) (2025-11-20T14:50:13Z) - AWEMixer: Adaptive Wavelet-Enhanced Mixer Network for Long-Term Time Series Forecasting [12.450099337354017]
適応ウェーブレット強化ミキサーネットワークであるAWEMixerを提案する。
周波数ルータは、Fast Fourier Transformによって達成された大域的周期パターンを利用して、局所化ウェーブレットサブバンドを適応的に重み付けする。
コヒーレントゲート融合ブロックは、多スケール時間表現による顕著な周波数特徴の選択的統合を実現する。
論文 参考訳(メタデータ) (2025-11-06T11:27:12Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters [6.733646592789575]
時系列予測(LTSF)は、パターンや傾向を特定するために、大量の時系列データを分析することによって、長期的な価値を予測する。
トランスフォーマーベースのモデルは高い予測精度を提供するが、ハードウェア制約のあるデバイスにデプロイするには計算集約的すぎることが多い。
資源制約のあるデバイスに特化して設計された超軽量時系列予測モデルであるMixLinearを提案する。
論文 参考訳(メタデータ) (2024-10-02T23:04:57Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。