論文の概要: Memory-Efficient Partitioned DNN Inference on Resource-Constrained Android Crowds
- arxiv url: http://arxiv.org/abs/2605.20723v1
- Date: Wed, 20 May 2026 05:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.488997
- Title: Memory-Efficient Partitioned DNN Inference on Resource-Constrained Android Crowds
- Title(参考訳): 資源制約付Androidクラウド上でのメモリ効率の良い分割DNN推論
- Authors: Lakshani Manamperi, Disumi Pathirana, Thiwanka Pathirana, Nipun Premarathna, Kutila Gunasekera,
- Abstract要約: 本稿では,資源制約のあるAndroidワーカーに対して,モデル修正を伴わずに実運用的なNNX推論を実現するCROWDioを提案する。
本システムでは,デバイス毎のRSSを43~2MBに制限し,バッテリドローを50~3mAhに制限する一方,ストリーミングはバリア同期よりも34%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying large deep neural networks on memory-constrained mobile devices is a central challenge in edge ML. While compression, pruning, and quantization reduce per-parameter cost, transformer-based models remain too large for the 3.3-7.4 GB RAM envelope of commodity Android handsets. We present the DNN pipeline scheduling subsystem of CROWDio, which achieves practical ONNX inference across resource-constrained Android workers without model modification, by distributing memory pressure across devices via five mechanisms: JIT deferred partition loading, a single-partition-resident constraint, a 4-tier affinity scheduler, a zlib-compressed tensor transport, and a streaming 1:1 dependency model. Evaluated on DistilBERT (Sanh et al., 2019) (approximately 67 M parameters, SST-2) across five Android handsets over ten runs, our system holds peak per-device RSS to 43+-2 MB and limits battery draw to 50+-3 mAh per run, while streaming concurrency cuts batch latency 34% below barrier synchronisation.
- Abstract(参考訳): メモリ制限されたモバイルデバイスに大規模なディープニューラルネットワークをデプロイすることは、エッジMLにおける中心的な課題である。
圧縮、プルーニング、量子化はパラメートルあたりのコストを下げるが、トランスフォーマーベースのモデルはコモディティAndroid端末の3.3-7.4GBのRAMエンベロープには大きすぎる。
JIT遅延パーティションロード,単一分割リミット制約,4階層アフィニティスケジューラ,zlib圧縮テンソルトランスポート,ストリーミング1:1依存性モデルという5つのメカニズムを用いて,メモリ圧力をデバイス全体に分散させることにより,リソース制約付きAndroidワーカ間での実用的なNNX推論を実現するCROWDioのDNNパイプラインスケジューリングサブシステムを提案する。
DistilBERT (Sanh et al , 2019) (約67Mパラメータ, SST-2) を10回の動作で評価し, デバイス毎のRSSを43~2MBに, バッテリーのドローを50~3mAhに制限した。
関連論文リスト
- EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation [1.0439136407307046]
モバイルニューラルプロセッシングユニット(NPU)に特化して開発されたハードウェア効率の良い生成変換器であるEdgeDiTを紹介する。
ハードウェア対応の最適化フレームワークを利用することで、特にモバイルデータフローに対して課税されるDiTバックボーン内の構造的冗長性を識別し、具現化する。
提案手法では,パラメータの20~30%の削減,FLOPの36~46%の削減,デバイス上のレイテンシの1.65倍の削減を実現した。
論文 参考訳(メタデータ) (2026-03-30T13:14:30Z) - Scaling State-Space Models on Multiple GPUs with Tensor Parallelism [0.24148976266903474]
選択状態空間モデル(SSM)は、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。
しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多い。
本稿では,3つの実践的技術的課題に対処する,選択的SSM推論のための通信効率のよいTP設計法を提案する。
論文 参考訳(メタデータ) (2026-02-24T17:47:54Z) - UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs [22.43695132973238]
学習後量子化と低ランク圧縮を一体化したUniQLを導入し,エッジLLMのデバイス上でのプルーニングレートについて述べる。
UniQLは、Transformers、State Space Models(SSM)、ハイブリッドモデルの量子化と低ランク圧縮を統合する一般的なフレームワークである。
当社のフレームワークは,シングルパスワークフローにおいて,クラウド上でウェイトソート,微調整,量子化を行うと同時に,デバイス上でのプルーニングレートを最大35%まで向上させる。
論文 参考訳(メタデータ) (2025-12-03T02:33:39Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with
Decoupled Asymmetric Convolution [0.0502254944841629]
深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。
本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。
ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36%の複雑さを必要とする。
論文 参考訳(メタデータ) (2023-08-30T07:23:32Z) - MobileNMT: Enabling Translation in 15MB and 30ms [53.75988363281843]
デバイス上で15MBと30msで翻訳できるMobileNMTを提案する。
モデルとエンジンの共設計により、既存のシステムと比較して47.0xのスピードを上げ、メモリの99.5%を節約し、BLEUの損失は11.6%に留まった。
論文 参考訳(メタデータ) (2023-06-07T08:25:51Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。