論文の概要: Bandwidth-Efficient Adaptive Mixture-of-Experts via Low-Rank Compensation
- arxiv url: http://arxiv.org/abs/2512.17073v1
- Date: Thu, 18 Dec 2025 21:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.174412
- Title: Bandwidth-Efficient Adaptive Mixture-of-Experts via Low-Rank Compensation
- Title(参考訳): 低域補償による帯域幅能率適応混合器
- Authors: Zhenyu Liu, Yunzhen Liu, Zehao Fan, Garrett Gagnon, Yayue Hou, Nan Wu, Yangwook Kang, Liu Liu,
- Abstract要約: 帯域幅効率のよい適応混合器を低ランク補償により提案する。
本手法は,帯域幅の高精度なトレードオフとスループットの向上を実現する。
- 参考スコア(独自算出の注目度): 11.078693613992556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models scale capacity via sparse activation but stress memory and bandwidth. Offloading alleviates GPU memory by fetching experts on demand, yet token-level routing causes irregular transfers that make inference I/O-bound. Static uniform quantization reduces traffic but degrades accuracy under aggressive compression by ignoring expert heterogeneity. We present Bandwidth-Efficient Adaptive Mixture-of-Experts via Low-Rank Compensation, which performs router-guided precision restoration using precomputed low-rank compensators. At inference time, our method transfers compact low-rank factors with Top-n (n<k) experts per token and applies compensation to them, keeping others low-bit. Integrated with offloading on GPU and GPU-NDP systems, our method delivers a superior bandwidth-accuracy trade-off and improved throughput.
- Abstract(参考訳): Mixture-of-Experts (MoE) はスパースアクティベーションによって容量を拡大するが、ストレスメモリと帯域幅をモデル化する。
オフロードは、要求に応じて専門家をフェッチすることでGPUメモリを緩和するが、トークンレベルのルーティングは推論I/Oバウンドを引き起こす不規則な転送を引き起こす。
静的均一量子化はトラフィックを減少させるが、専門家の不均一性を無視してアグレッシブな圧縮の下で精度を低下させる。
低ランク補償による帯域幅効率の良い適応混合回路を提案し, プリ計算低ランク補償器を用いてルータ誘導精度の復元を行う。
提案手法は,トークン毎にTop-n (n<k) の専門家とコンパクトな低ランク因子を転送し,それに対して補償を施し,他の要素を低ビットに維持する。
GPUとGPU-NDPシステムのオフロードと統合することにより,帯域幅の精度が向上し,スループットが向上する。
関連論文リスト
- Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning [23.866517021196724]
グラフベースのマルチエージェント強化学習(MARL)は,ノードとしてエージェントをモデル化し,エッジとして通信リンクをモデル化することにより,部分観測可能性下での協調動作を可能にする。
本研究では,この帯域幅制限方式について検討し,ナイーブ次元の低減が常に調整性能を低下させることを示す。
我々は,KLの発散により正規化されたガウスのサンプルとしてメッセージを扱う軽量モジュールであるBVME(Band-Constrained Variational Message)を紹介する。
BVMEは67~83%のメッセージディメンションを使用しながら、同等あるいは優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-11T23:56:43Z) - Prediction-Powered Communication with Distortion Guarantees [65.37485275954224]
本研究では,デバイスが厳密な歪み保証付きゼロ遅延制約の下で通信する,予測駆動型通信環境について検討する。
本稿では,オンラインコンフォメーション予測を利用した2つのゼロ遅延圧縮アルゴリズムを提案する。
セマンティックテキスト圧縮の実験は、そのアプローチを検証し、ビットレートの大幅な削減を示す。
論文 参考訳(メタデータ) (2025-09-29T07:19:39Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks [53.23803932357899]
量子化は画像超解像(SR)ネットワークの精度を低下させる。
既存の作業は、テスト時間中に量子化範囲を動的に適応することで、この分散ミスマッチ問題に対処する。
本稿では,SRネットワークにおける分散ミスマッチ問題を効果的に克服する量子化対応学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T08:50:01Z) - M22: A Communication-Efficient Algorithm for Federated Learning Inspired
by Rate-Distortion [19.862336286338564]
連合学習では、通信制約による精度の損失を最小限に抑えるために、モデル更新を圧縮する必要がある。
本稿では、勾配圧縮に対する速度歪みに着想を得たEmph$bf M$-magnitudeed $L_bf 2$ distortion + $bf 2$ degrees of freedom' (M22)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:40:01Z) - Compression-aware Projection with Greedy Dimension Reduction for
Convolutional Neural Network Activations [3.6188659868203388]
分類精度と圧縮比のトレードオフを改善するための圧縮対応投影システムを提案する。
提案手法は,MobileNetV2/ResNet18/VGG16の精度低下により2.91x5.97xのメモリアクセスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2021-10-17T14:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。