論文の概要: FlexInfer: Breaking Memory Constraint via Flexible and Efficient Offloading for On-Device LLM Inference
- arxiv url: http://arxiv.org/abs/2503.03777v1
- Date: Tue, 04 Mar 2025 20:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:41.122532
- Title: FlexInfer: Breaking Memory Constraint via Flexible and Efficient Offloading for On-Device LLM Inference
- Title(参考訳): FlexInfer: デバイス上でのLCM推論のためのフレキシブルで効率的なオフロードによるメモリ制約の破り
- Authors: Hongchao Du, Shangyu Wu, Arina Kharlamova, Nan Guan, Chun Jason Xue,
- Abstract要約: 大規模言語モデル(LLM)は、高いメモリ要求のためにデバイス上での推論の課題に直面します。
デバイス上での推論に最適化されたオフロードフレームワークであるFlexInferを提案する。
- 参考スコア(独自算出の注目度): 10.755373001278402
- License:
- Abstract: Large Language Models (LLMs) face challenges for on-device inference due to high memory demands. Traditional methods to reduce memory usage often compromise performance and lack adaptability. We propose FlexInfer, an optimized offloading framework for on-device inference, addressing these issues with techniques like asynchronous prefetching, balanced memory locking, and flexible tensor preservation. These strategies enhance memory efficiency and mitigate I/O bottlenecks, ensuring high performance within user-specified resource constraints. Experiments demonstrate that FlexInfer significantly improves throughput under limited resources, achieving up to 12.5 times better performance than existing methods and facilitating the deployment of large models on resource-constrained devices.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高いメモリ要求のためにデバイス上での推論の課題に直面します。
メモリ使用量を減らす従来の方法は、しばしば性能を損ね、適応性に欠ける。
デバイス上での推論に最適化されたオフロードフレームワークであるFlexInferを提案し、非同期プリフェッチ、バランスの取れたメモリロック、フレキシブルなテンソル保存といったテクニックでこれらの問題に対処する。
これらの戦略はメモリ効率を高め、I/Oボトルネックを軽減する。
実験によると、FlexInferは限られたリソース下でのスループットを大幅に改善し、既存のメソッドの最大12.5倍のパフォーマンスを実現し、リソース制約のあるデバイスへの大規模モデルのデプロイを容易にする。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - FlexQuant: Elastic Quantization Framework for Locally Hosted LLM on Edge Devices [3.950064543723201]
メモリの柔軟性は、メモリが共有され動的に変動する統一メモリを持つエッジデバイスにとって不可欠である。
我々は、量子化されたモデルの集合を生成する新しい弾力性フレームワークFlexQuantを提案する。
論文 参考訳(メタデータ) (2025-01-13T08:58:00Z) - GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。
これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。
バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-06T05:46:43Z) - FluidML: Fast and Memory Efficient Inference Optimization [3.7676096626244986]
我々は,汎用ランタイムメモリ管理および最適化フレームワークであるFluidMLを提案する。
一般的な言語モデルでは、FluidMLはエンドツーエンドの推論遅延を最大25.38%削減できることを示す。
また、FluidMLは最先端のアプローチと比較してピークメモリ使用量を最大41.47%削減できることを示す。
論文 参考訳(メタデータ) (2024-11-14T07:16:23Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - FedMef: Towards Memory-efficient Federated Dynamic Pruning [42.07105095641134]
フェデレートラーニング(FL)は、データの機密性を優先しながら、分散トレーニングを促進する。
リソース制約のあるデバイスへのその応用は、ディープラーニングモデルをトレーニングするための計算とメモリリソースの要求が高いため、難しい。
我々は,新しい,メモリ効率の高い動的刈取フレームワークであるFedMefを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:54:36Z) - Contractive error feedback for gradient compression [60.05809370598166]
本稿では,ConEF(Contractive error feedback)と呼ばれる通信効率のよい手法を提案する。
メモリを効率よく管理しないエラーフィードバック(EFSGD)を持つSGDとは対照的に、ConEFはコンバージェンスとメモリ使用率のスイートスポットを取得する。
我々は、画像分類、言語モデリング、機械翻訳を含む様々な学習タスクにおいて、ConEFを実証的に検証する。
論文 参考訳(メタデータ) (2023-12-13T21:54:21Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。