論文の概要: $μ$-MoE: Test-Time Pruning as Micro-Grained Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2505.18451v1
- Date: Sat, 24 May 2025 01:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.43079
- Title: $μ$-MoE: Test-Time Pruning as Micro-Grained Mixture-of-Experts
- Title(参考訳): $μ$-MoE:マイクログラインド・ミックス・オブ・エクササイズとしてのテストタイムプルーニング
- Authors: Toshiaki Koike-Akino, Jing Liu, Ye Wang,
- Abstract要約: アクティベーション対応のプルーニングは、すべてのプロンプトに対して適応的に実行できるが、推論時に複雑さを低減できる。
我々はこれを$mu$-MoEと呼ばれるマイクロエキスパートの混合物として定式化する。
いくつかの実験では、$mu$-MoEがタスク/プロンプト依存の構造的空間に動的に適応できることが示されている。
- 参考スコア(独自算出の注目度): 13.942552967306296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To tackle the huge computational demand of large foundation models, activation-aware compression techniques without retraining have been introduced. However, since these rely on calibration data, domain shift may arise for unknown downstream tasks. With a computationally efficient calibration, activation-aware pruning can be executed for every prompt adaptively, yet achieving reduced complexity at inference. We formulate it as a mixture of micro-experts, called $\mu$-MoE. Several experiments demonstrate that $\mu$-MoE can dynamically adapt to task/prompt-dependent structured sparsity on the fly.
- Abstract(参考訳): 大規模基盤モデルの膨大な計算需要に対応するため, 再学習を伴わないアクティベーション対応圧縮技術が導入された。
しかし、これらは校正データに依存するため、未知の下流タスクに対してドメインシフトが発生する可能性がある。
計算効率のよいキャリブレーションでは、アクティベーション対応のプルーニングが各プロンプトに対して適応的に実行されるが、推論の複雑さは減少する。
我々はこれを$\mu$-MoEと呼ばれるマイクロエキスパートの混合物として定式化する。
いくつかの実験では、$\mu$-MoE がタスク/プロンプトに依存した構造的空間に動的に適応できることが示されている。
関連論文リスト
- ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。
DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。
提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [43.32632163091792]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient
for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。
我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文 参考訳(メタデータ) (2023-06-07T00:16:10Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。