論文の概要: Accelerating Mobile Language Model Generation via Hybrid Context and Hardware Coordination
- arxiv url: http://arxiv.org/abs/2510.15312v1
- Date: Fri, 17 Oct 2025 04:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.47636
- Title: Accelerating Mobile Language Model Generation via Hybrid Context and Hardware Coordination
- Title(参考訳): ハイブリッドコンテキストとハードウェアコーディネートによるモバイル言語モデル生成の高速化
- Authors: Zhiyang Chen, Daliang Xu, Haiyang Shen, Mengwei Xu, Shangguang Wang, Yun Ma,
- Abstract要約: CoordGenは、投機的デコーディングと動的ハードウェアスケジューリングを統合して、モバイルデバイス上でコンテキスト対応のテキスト生成を高速化するフレームワークである。
実験では、既存のモバイル推論ソリューションと比較して、生成速度が3.8倍、エネルギー効率が4.7倍まで一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 10.577037037457465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing on-device large language models (LLMs) with contextual information from local data enables personalized and task-aware generation, powering use cases such as intelligent assistants and UI agents. While recent developments in neural processors have substantially improved the efficiency of prefill on mobile devices, the token-by-token generation process still suffers from high latency and limited hardware utilization due to its inherently memory-bound characteristics. This work presents CoordGen, a mobile inference framework that integrates speculative decoding with dynamic hardware scheduling to accelerate context-aware text generation on mobile devices. The framework introduces three synergistic components: (1) adaptive execution scheduling, which dynamically balances compute graphs between prefill and decoding phases; (2) context-aligned drafting, which improves speculative efficiency through lightweight online calibration to current tasks; and (3) hardware-efficient draft extension, which reuses and expands intermediate sequences to improve processing parallelism and reduce verification cost. Experiments on multiple smartphones and representative workloads show consistent improvements of up to 3.8x in generation speed and 4.7x in energy efficiency compared with existing mobile inference solutions. Component-level analysis further validates the contribution of each optimization.
- Abstract(参考訳): ローカルデータからのコンテキスト情報によるデバイス上の大規模言語モデル(LLM)の強化により、パーソナライズとタスク認識の生成が可能になり、インテリジェントアシスタントやUIエージェントといったユースケースのパワーアップが可能になる。
最近のニューラルプロセッサの開発は、モバイルデバイスでのプリフィルの効率を大幅に改善しているが、トークンバイトークンの生成プロセスは、本質的にメモリバウンド特性のため、高いレイテンシとハードウェア利用の制限に悩まされている。
この研究は、投機的デコーディングと動的ハードウェアスケジューリングを統合し、モバイルデバイス上でのコンテキスト認識テキスト生成を高速化するモバイル推論フレームワークであるCoordGenを提示する。
本フレームワークでは,(1)プリフィルとデコードフェーズ間で動的に計算グラフのバランスをとる適応型実行スケジューリング,(2)軽量オンラインキャリブレーションによる投機的効率を改善するコンテキスト整合型ドラフト,(3)中間シーケンスを再利用・拡張して処理並列性を改善し,検証コストを削減するハードウェア効率のドラフト拡張という3つの相乗的コンポーネントを導入している。
複数のスマートフォンおよび代表的ワークロードの実験では、既存のモバイル推論ソリューションと比較して、生成速度が3.8倍、エネルギー効率が4.7倍まで一貫した改善が見られた。
コンポーネントレベルの分析は、各最適化の貢献をさらに検証する。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention [32.48360534726024]
我々は、アルゴリズムのイノベーションとハードウェアの最適化を統合する、ネイティブにトレーニング可能なスパースアテンションメカニズムであるNSAを紹介する。
NSAは動的な階層的なスパース戦略を採用し、粗粒のトークン圧縮と細粒のトークン選択を組み合わせて、グローバルなコンテキスト認識と局所的精度の両方を維持する。
論文 参考訳(メタデータ) (2025-02-16T11:53:44Z) - Characterizing Mobile SoC for Accelerating Heterogeneous LLM Inference [11.755602920122803]
HeteroInferは、GPU-NPUの不均一実行をサポートするモバイルデバイスで最速のLLM推論エンジンである。
HeteroInferは最先端のGPU-NPUエンジン上で1.34倍から6.02倍のエンドツーエンドのスピードアップを提供する。
論文 参考訳(メタデータ) (2025-01-11T02:42:02Z) - Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [31.901686946969786]
Dovetailは異種デバイスの相補的特性と投機的復号化の利点を利用する推論手法である。
Dovetailは、異なるデバイス間で1.79xから10.1xまでの推論スピードアップを実現し、生成したテキストの一貫性と安定性を維持している。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - DevFormer: A Symmetric Transformer for Context-Aware Device Placement [12.400790776196667]
本稿では,ハードウェア設計最適化の複雑で計算に要求される問題に対処するトランスフォーマーベースのアーキテクチャであるDevFormerを提案する。
提案手法は, 相対的な位置埋め込みや行動置換対称性などの強い帰納バイアスを導入することで, この制限に対処する。
DevFoemerは、両方のシミュレーションハードウェアで最先端の手法よりも優れており、性能が向上し、コンポーネントの数を30ドル以上削減できることを示す。
論文 参考訳(メタデータ) (2022-05-26T08:36:35Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。