論文の概要: DILEMMA: Joint LLM Quantization and Distributed LLM Inference Over Edge Computing Systems
- arxiv url: http://arxiv.org/abs/2503.01704v1
- Date: Mon, 03 Mar 2025 16:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:34.074014
- Title: DILEMMA: Joint LLM Quantization and Distributed LLM Inference Over Edge Computing Systems
- Title(参考訳): DILEMMA:エッジコンピューティングシステム上でのLLM量子化と分散LLM推論
- Authors: Minoo Hosseinzadeh, Hana Khamfroush,
- Abstract要約: 本稿では,エッジコンピューティングシステムに大規模言語モデルをデプロイする際の課題に対処する新しいフレームワークであるDILEMMAを紹介する。
DILEMMAは線形プログラミングの問題を定式化し、総遅延を最小限に抑えつつ、許容可能なLLM性能レベルを確保している。
モデル損失を保ちながら、最大で12.75%の量子化比を達成し、資源制約のある環境での有効性を強調している。
- 参考スコア(独自算出の注目度): 1.14179290793997
- License:
- Abstract: With a recent trend of using Large Language Models (LLMs) for different applications within smart cities, there is a need for pushing these models toward the edge of network while still preserving their performance. Edge Computing (EC) as a physically closer computing resource to the end users can help to reduce the communication delay for serving end users' tasks for LLM-dependent services. However, EC servers have limited capacity in terms of communication, computation, and storage capacity. This paper introduces DILEMMA, a novel framework addressing the challenges of deploying LLMs in EC systems by jointly optimizing layer placement and layer quantization in EC systems. DILEMMA formulates an Integer Linear Programming problem to minimize total inference delay while ensuring acceptable LLM performance levels, leveraging layer-wise quantization and knowledge distillation for LLM performance control. Experimental evaluations on OPT-350 model using the SQuAD dataset demonstrate that DILEMMA achieves a quantization ratio of up to 12.75% while preserving model loss, highlighting its effectiveness in resource-constrained environments.
- Abstract(参考訳): 近年、スマートシティ内のさまざまなアプリケーションにLarge Language Models(LLMs)を使用する傾向にあるため、これらのモデルをネットワークの端に向けてプッシュする必要がある。
エッジコンピューティング(EC)は、エンドユーザに物理的に近いコンピューティングリソースであり、LLM依存サービスのためにエンドユーザのタスクを提供するための通信遅延を低減するのに役立つ。
しかし、ECサーバは通信、計算、ストレージの容量に制限がある。
本稿では,レイヤ配置と層量子化をECシステムで共同で最適化することで,LCMをECシステムに展開する上での課題に対処する新しいフレームワークであるDILEMMAを紹介する。
DILEMMAはインテガー線形計画問題を定式化し、LLM性能の許容レベルを確保しつつ、LLM性能制御のための層ワイド量子化と知識蒸留を利用する。
SQuADデータセットを用いたOPT-350モデルの実験的評価により、DILEMMAはモデル損失を保ちながら最大12.75%の量子化比を達成し、資源制約のある環境での有効性を強調した。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [13.235417359529965]
LSAQ(Layer-Specific Adaptive Quantization)は,大規模言語モデル(LLM)の適応的量子化と動的展開を行うシステムである。
このシステムは、エッジデバイスのリソース可用性に応じて、リアルタイムに量子化戦略を適応的に調整し、異なる精度レベルを異なる重要性の層に割り当てる。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大規模言語モデル(LLM)は、エンドユーザに人間のような知性を提供することで、驚くべき成功を収めた。
LLMは高い計算資源を必要としており、様々な性能目標を満たすためにそれらをデプロイすることは困難である。
CE-CoLLMは,エッジのエンドユーザに対して,効率的かつ適応的なLLM推論をサポートする,新しいクラウドエッジコラボレーションフレームワークである。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。