Fugu-MT 論文翻訳(概要): FlexInfer: Breaking Memory Constraint via Flexible and Efficient Offloading for On-Device LLM Inference

論文の概要: FlexInfer: Breaking Memory Constraint via Flexible and Efficient Offloading for On-Device LLM Inference

arxiv url: http://arxiv.org/abs/2503.03777v1
Date: Tue, 04 Mar 2025 20:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.53562
Title: FlexInfer: Breaking Memory Constraint via Flexible and Efficient Offloading for On-Device LLM Inference
Title（参考訳）: FlexInfer: デバイス上でのLCM推論のためのフレキシブルで効率的なオフロードによるメモリ制約の破り
Authors: Hongchao Du, Shangyu Wu, Arina Kharlamova, Nan Guan, Chun Jason Xue,
Abstract要約: 大規模言語モデル(LLM)は、高いメモリ要求のためにデバイス上での推論の課題に直面します。デバイス上での推論に最適化されたオフロードフレームワークであるFlexInferを提案する。
参考スコア（独自算出の注目度）: 10.755373001278402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) face challenges for on-device inference due to high memory demands. Traditional methods to reduce memory usage often compromise performance and lack adaptability. We propose FlexInfer, an optimized offloading framework for on-device inference, addressing these issues with techniques like asynchronous prefetching, balanced memory locking, and flexible tensor preservation. These strategies enhance memory efficiency and mitigate I/O bottlenecks, ensuring high performance within user-specified resource constraints. Experiments demonstrate that FlexInfer significantly improves throughput under limited resources, achieving up to 12.5 times better performance than existing methods and facilitating the deployment of large models on resource-constrained devices.
Abstract（参考訳）: 大規模言語モデル(LLM)は、高いメモリ要求のためにデバイス上での推論の課題に直面します。メモリ使用量を減らす従来の方法は、しばしば性能を損ね、適応性に欠ける。デバイス上での推論に最適化されたオフロードフレームワークであるFlexInferを提案し、非同期プリフェッチ、バランスの取れたメモリロック、フレキシブルなテンソル保存といったテクニックでこれらの問題に対処する。これらの戦略はメモリ効率を高め、I/Oボトルネックを軽減する。実験によると、FlexInferは限られたリソース下でのスループットを大幅に改善し、既存のメソッドの最大12.5倍のパフォーマンスを実現し、リソース制約のあるデバイスへの大規模モデルのデプロイを容易にする。

関連論文リスト

DAF: An Efficient End-to-End Dynamic Activation Framework for on-Device DNN Training [41.09085549544767]
システムレベルの最適化を通じて、スケーラブルで効率的なデバイス上でのトレーニングを可能にする動的アクティベーションフレームワーク(DAF)を導入する。 DAFは、主要なシステムのボトルネックに対処することで、メモリと時間効率の動的量子化トレーニングを実現する。組み込みプラットフォームとモバイルプラットフォームにわたるさまざまなディープラーニングモデルの評価によると、メモリ使用量の削減に22.9倍、スピードアップに32倍の3.2倍となる。
論文参考訳（メタデータ） (2025-07-09T08:59:30Z)
FlexQuant: A Flexible and Efficient Dynamic Precision Switching Framework for LLM Quantization [18.041828697950812]
推論速度と精度のトレードオフを最適化する動的精度スイッチングフレームワークFlexQuantを提案する。我々の研究は量子化戦略の包括的分析を提供し、最適な切替のための精度要求モデルを導入し、効率的なきめ細かな精密管理を実現する。実験の結果、FlexQuantは様々な言語タスクで1.3倍のエンドツーエンドのスピードアップを達成し、精度の損失は無視できることがわかった。
論文参考訳（メタデータ） (2025-05-21T07:42:53Z)
Deploying Large AI Models on Resource-Limited Devices with Split Federated Learning [39.73152182572741]
本稿では、SFLAM(Quantized Split Federated Fine-Tuning Large AI Model)と呼ばれる新しいフレームワークを提案する。エッジデバイスとサーバ間のトレーニング負荷を分割することで、SFLAMはデバイス上の大規模なモデルの操作を容易にすることができる。 SFLAMは、トレーニング効率を高めるために、量子化管理、電力制御、帯域幅割り当て戦略を取り入れている。
論文参考訳（メタデータ） (2025-04-12T07:55:11Z)
COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文参考訳（メタデータ） (2025-02-24T18:42:19Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
FlexQuant: Elastic Quantization Framework for Locally Hosted LLM on Edge Devices [3.950064543723201]
メモリの柔軟性は、メモリが共有され動的に変動する統一メモリを持つエッジデバイスにとって不可欠である。我々は、量子化されたモデルの集合を生成する新しい弾力性フレームワークFlexQuantを提案する。
論文参考訳（メタデータ） (2025-01-13T08:58:00Z)
GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文参考訳（メタデータ） (2024-12-06T05:46:43Z)
FluidML: Fast and Memory Efficient Inference Optimization [3.7676096626244986]
我々は,汎用ランタイムメモリ管理および最適化フレームワークであるFluidMLを提案する。一般的な言語モデルでは、FluidMLはエンドツーエンドの推論遅延を最大25.38%削減できることを示す。また、FluidMLは最先端のアプローチと比較してピークメモリ使用量を最大41.47%削減できることを示す。
論文参考訳（メタデータ） (2024-11-14T07:16:23Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
FedMef: Towards Memory-efficient Federated Dynamic Pruning [42.07105095641134]
フェデレートラーニング(FL)は、データの機密性を優先しながら、分散トレーニングを促進する。リソース制約のあるデバイスへのその応用は、ディープラーニングモデルをトレーニングするための計算とメモリリソースの要求が高いため、難しい。我々は,新しい,メモリ効率の高い動的刈取フレームワークであるFedMefを提案する。
論文参考訳（メタデータ） (2024-03-21T13:54:36Z)
Contractive error feedback for gradient compression [60.05809370598166]
本稿では,ConEF(Contractive error feedback)と呼ばれる通信効率のよい手法を提案する。メモリを効率よく管理しないエラーフィードバック(EFSGD)を持つSGDとは対照的に、ConEFはコンバージェンスとメモリ使用率のスイートスポットを取得する。我々は、画像分類、言語モデリング、機械翻訳を含む様々な学習タスクにおいて、ConEFを実証的に検証する。
論文参考訳（メタデータ） (2023-12-13T21:54:21Z)
Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文参考訳（メタデータ） (2023-10-19T15:13:58Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。