論文の概要: M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
- arxiv url: http://arxiv.org/abs/2502.02040v1
- Date: Tue, 04 Feb 2025 06:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:55.947207
- Title: M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
- Title(参考訳): M2R2:効率的な変圧器推論のためのマルチレート残差の混合
- Authors: Nikhil Bhendawade, Mahyar Najibi, Devang Naik, Irina Belousova,
- Abstract要約: M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善するフレームワークである。
M2R2は最先端の距離ベースの戦略を超え、生成品質とスピードアップのバランスをとる。
自己投機的復号化では、M2R2はMT-Benchで最大2.8倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 8.792650582656913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual transformations enhance the representational depth and expressive power of large language models (LLMs). However, applying static residual transformations across all tokens in auto-regressive generation leads to a suboptimal trade-off between inference efficiency and generation fidelity. Existing methods, including Early Exiting, Skip Decoding, and Mixture-of-Depth address this by modulating the residual transformation based on token-level complexity. Nevertheless, these approaches predominantly consider the distance traversed by tokens through the model layers, neglecting the underlying velocity of residual evolution. We introduce Mixture of Multi-rate Residuals (M2R2), a framework that dynamically modulates residual velocity to improve early alignment, enhancing inference efficiency. Evaluations on reasoning oriented tasks such as Koala, Self-Instruct, WizardLM, and MT-Bench show M2R2 surpasses state-of-the-art distance-based strategies, balancing generation quality and speedup. In self-speculative decoding setup, M2R2 achieves up to 2.8x speedups on MT-Bench, outperforming methods like 2-model speculative decoding, Medusa, LookAhead Decoding, and DEED. In Mixture-of-Experts (MoE) architectures, integrating early residual alignment with ahead-of-time expert loading into high-bandwidth memory (HBM) accelerates decoding, reduces expert-switching bottlenecks, and achieves a 2.9x speedup, making it highly effective in resource-constrained environments.
- Abstract(参考訳): 残差変換は、大きな言語モデル(LLM)の表現深さと表現力を高める。
しかし、自己回帰生成において全てのトークンに静的な残留変換を適用すると、推論効率と生成忠実度の間には準最適のトレードオフが生じる。
Early Exiting、Skip Decoding、Mixture-of-Depthといった既存の手法では、トークンレベルの複雑さに基づいた残差変換を変調することでこの問題に対処している。
しかしながら、これらのアプローチは、モデル層を通してトークンが通過する距離を主に考慮し、残留進化の基盤となる速度を無視する。
M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善し,推論効率を向上させるフレームワークである。
Koala、Self-Instruct、WizardLM、MT-Benchなどの推論指向タスクの評価では、M2R2は最先端の距離ベース戦略を超え、生成品質とスピードアップのバランスをとる。
M2R2はMT-Bench上で最大2.8倍のスピードアップを実現し、2モデル投機復号、Medusa、LookAhead Decoding、DEEDなどの性能向上を実現している。
Mixture-of-Experts (MoE)アーキテクチャでは、事前のエキスパート負荷による早期残差アライメントを高帯域メモリ(HBM)に組み込むことでデコードが加速し、専門家が切り替えるボトルネックを減らし、2.9倍のスピードアップを実現し、リソース制約のある環境で非常に効果的である。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - BiT-MamSleep: Bidirectional Temporal Mamba for EEG Sleep Staging [9.917709200378217]
BiT-MamSleepは,Triple-Resolution CNN(TRCNN)を統合し,効率的なマルチスケール特徴抽出を行う新しいアーキテクチャである。
BiT-MamSleepにはAdaptive Feature Recalibration (AFR)モジュールと時間拡張ブロックが組み込まれている。
4つの公開データセットの実験は、BiT-MamSleepが最先端の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-03T14:49:11Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。