論文の概要: Tiny-QMoE
- arxiv url: http://arxiv.org/abs/2509.22951v1
- Date: Fri, 26 Sep 2025 21:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.950403
- Title: Tiny-QMoE
- Title(参考訳): Tiny-QMoE
- Authors: Jack Cashman, Jiaqi Nie,
- Abstract要約: QMoEモデルは、大規模なMixture-of-Experts(MoE)モデルの圧縮に実用的なアプローチを提供する。
QMoEはテラバイト規模のメモリ制限に対応するソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.6875312133832079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The QMoE model provides a practical approach for compression of massive Mixture-of-Experts (MoE) models. QMoE offers a solution geared towards memory limitations that often reach terabyte scales, and it has the advantage of working with high sparsity models which implicitly lend themselves to compression techniques. QMoE also has the advantage of only taking MoE models into account and does not evaluate its use with non mixture of expert systems. Although this prior attempt focuses on the limitations of large servers with the latest NVIDIA hardware which in the case of the H100 and V100 which have 80 GB of HBM (High Bandwidth Memory), what is not being considered is a significantly more constrained environment, such as in the case of mobile devices which may have in the case of the iPhone anywhere from 4 to 8 GB of unified memory which also needs to be shared with the operating system and additional processes. Although edge devices such as phones and laptops are becoming increasingly more computationally powerful, they are still not close to the level of advanced server machines such as NVIDIA. An additional constraint that we must consider is that of latency. The communication time of sending a request to an LLM server and then getting it back is an additional waiting time that can be removed. We may also want to use LLM technology in environments where there is no reliable network connection.
- Abstract(参考訳): QMoEモデルは、大規模なMixture-of-Experts(MoE)モデルの圧縮に実用的なアプローチを提供する。
QMoEはテラバイト規模のメモリ制限を指向したソリューションを提供しており、圧縮技術に暗黙的に依存する高空間モデルの利点がある。
QMoEはまた、MoEモデルのみを考慮に入れるという利点があり、専門家システムとの混在を考慮に入れていない。
この以前の試みは、80GBのHBM(High Bandwidth Memory)を持つH100とV100のケースにおいて、最新のNVIDIAハードウェアによる大きなサーバの制限に焦点を当てていたが、iPhoneの場合、オペレーティングシステムと追加のプロセスと共有する必要がある4GBから8GBの統一メモリを持つモバイルデバイスのように、考慮されていないのは、はるかに制約のある環境である。
携帯電話やラップトップなどのエッジデバイスは、ますます計算力を高めつつあるが、NVIDIAのような先進的なサーバーマシンのレベルにはまだ近づいていない。
私たちが考慮しなければならないもう1つの制約は、レイテンシの制限です。
LLMサーバにリクエストを送り、それを返却する通信時間は、削除可能な追加の待ち時間である。
また、信頼性の高いネットワーク接続が存在しない環境でLLM技術を利用したい場合もあります。
関連論文リスト
- Prima.cpp: Fast 30-70B LLM Inference on Heterogeneous and Low-Resource Home Clusters [43.52299612686755]
オンデバイス推論は、プライバシ、オフライン使用、即時応答を提供するが、コンシューマハードウェアは、大きな言語モデル(LLM)を低スループットと能力に制限する。
本稿では,CPU/GPUの混在,RAM/VRAMの不足,ディスクの遅い,Wi-Fiリンク,異種OSを備えた家電クラスタ上で30~70B LLMを動作させる分散オンデバイス推論システムprime.を提案する。
計算・通信とディスクI/Oの重なり合うようにパイプラインリング並列化(PRP)を導入し,mapベースのオフロードにおけるプレフェッチ・リリース競合に対処する。
論文 参考訳(メタデータ) (2025-04-07T13:46:21Z) - Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference [19.59857352852377]
大規模言語モデル(LLM)は、急速にサイズを拡大し続けている。
これにより、小さなエッジデバイス上でのLLMの動作の困難さが増した。
本稿では,LLM重みを圧縮形式で格納するHuff-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-02T21:23:42Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference [47.043257902725294]
本研究では, 圧縮率が高く, 減圧オーバーヘッドの少ない非ゼロ値に対して, 刈り取られたLLM重みの非構造スパースパターンを圧縮する新しいスパース形式を提案する。
一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。
論文 参考訳(メタデータ) (2024-06-17T15:55:08Z) - EdgeMoE: Empowering Sparse Large Language Models on Mobile Devices [3.3947808667959536]
EdgeMoEは、Mix-of-expert (MoE) LLM用のオンデバイス推論エンジンである。
非専門家の重みはデバイスメモリに保持されるが、専門家の重みは外部ストレージに保持され、アクティベート時にのみメモリにフェッチされる。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - MobileNMT: Enabling Translation in 15MB and 30ms [53.75988363281843]
デバイス上で15MBと30msで翻訳できるMobileNMTを提案する。
モデルとエンジンの共設計により、既存のシステムと比較して47.0xのスピードを上げ、メモリの99.5%を節約し、BLEUの損失は11.6%に留まった。
論文 参考訳(メタデータ) (2023-06-07T08:25:51Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。