論文の概要: M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
- arxiv url: http://arxiv.org/abs/2502.02040v1
- Date: Tue, 04 Feb 2025 06:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:41.980347
- Title: M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
- Title(参考訳): M2R2:効率的な変圧器推論のためのマルチレート残差の混合
- Authors: Nikhil Bhendawade, Mahyar Najibi, Devang Naik, Irina Belousova,
- Abstract要約: M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善するフレームワークである。
M2R2は最先端の距離ベースの戦略を超え、生成品質とスピードアップのバランスをとる。
自己投機的復号化では、M2R2はMT-Benchで最大2.8倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 8.792650582656913
- License:
- Abstract: Residual transformations enhance the representational depth and expressive power of large language models (LLMs). However, applying static residual transformations across all tokens in auto-regressive generation leads to a suboptimal trade-off between inference efficiency and generation fidelity. Existing methods, including Early Exiting, Skip Decoding, and Mixture-of-Depth address this by modulating the residual transformation based on token-level complexity. Nevertheless, these approaches predominantly consider the distance traversed by tokens through the model layers, neglecting the underlying velocity of residual evolution. We introduce Mixture of Multi-rate Residuals (M2R2), a framework that dynamically modulates residual velocity to improve early alignment, enhancing inference efficiency. Evaluations on reasoning oriented tasks such as Koala, Self-Instruct, WizardLM, and MT-Bench show M2R2 surpasses state-of-the-art distance-based strategies, balancing generation quality and speedup. In self-speculative decoding setup, M2R2 achieves up to 2.8x speedups on MT-Bench, outperforming methods like 2-model speculative decoding, Medusa, LookAhead Decoding, and DEED. In Mixture-of-Experts (MoE) architectures, integrating early residual alignment with ahead-of-time expert loading into high-bandwidth memory (HBM) accelerates decoding, reduces expert-switching bottlenecks, and achieves a 2.9x speedup, making it highly effective in resource-constrained environments.
- Abstract(参考訳): 残差変換は、大きな言語モデル(LLM)の表現深さと表現力を高める。
しかし、自己回帰生成において全てのトークンに静的な残留変換を適用すると、推論効率と生成忠実度の間には準最適のトレードオフが生じる。
Early Exiting、Skip Decoding、Mixture-of-Depthといった既存の手法では、トークンレベルの複雑さに基づいた残差変換を変調することでこの問題に対処している。
しかしながら、これらのアプローチは、モデル層を通してトークンが通過する距離を主に考慮し、残留進化の基盤となる速度を無視する。
M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善し,推論効率を向上させるフレームワークである。
Koala、Self-Instruct、WizardLM、MT-Benchなどの推論指向タスクの評価では、M2R2は最先端の距離ベース戦略を超え、生成品質とスピードアップのバランスをとる。
M2R2はMT-Bench上で最大2.8倍のスピードアップを実現し、2モデル投機復号、Medusa、LookAhead Decoding、DEEDなどの性能向上を実現している。
Mixture-of-Experts (MoE)アーキテクチャでは、事前のエキスパート負荷による早期残差アライメントを高帯域メモリ(HBM)に組み込むことでデコードが加速し、専門家が切り替えるボトルネックを減らし、2.9倍のスピードアップを実現し、リソース制約のある環境で非常に効果的である。
関連論文リスト
- PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation [38.71875790942604]
PRV2はUnrealStereo4Kの精度と速度の両方で最先端の深さ推定手法より優れている。
また、CityScape、ScanNet++、KITTIといった現実世界のデータセットでは、奥行き境界線が改善されている。
論文 参考訳(メタデータ) (2025-01-02T07:41:27Z) - p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - BiT-MamSleep: Bidirectional Temporal Mamba for EEG Sleep Staging [9.917709200378217]
BiT-MamSleepは,Triple-Resolution CNN(TRCNN)を統合し,効率的なマルチスケール特徴抽出を行う新しいアーキテクチャである。
BiT-MamSleepにはAdaptive Feature Recalibration (AFR)モジュールと時間拡張ブロックが組み込まれている。
4つの公開データセットの実験は、BiT-MamSleepが最先端の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-03T14:49:11Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。