論文の概要: REAM: Merging Improves Pruning of Experts in LLMs
- arxiv url: http://arxiv.org/abs/2604.04356v1
- Date: Mon, 06 Apr 2026 02:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.062184
- Title: REAM: Merging Improves Pruning of Experts in LLMs
- Title(参考訳): REAM: LLMにおけるエキスパートの育成はマージによって改善される
- Authors: Saurav Jha, Maryam Hashemzadeh, Ali Saheb Pasand, Ali Parviz, Min-Joong Lee, Boris Knyazev,
- Abstract要約: メモリ要求を減らす従来のアプローチには、重み付けと量子化がある。
本稿では,Reuter-weighted Expert Activation Merging (REAM)を提案する。
専門家を排除するのではなく、REAMはそれらをグループ化し、彼らの重みをマージし、オリジナルのパフォーマンスをよりよく保存する。
- 参考スコア(独自算出の注目度): 6.52958560748865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) large language models (LLMs) are among the top-performing architectures. The largest models, often with hundreds of billions of parameters, pose significant memory challenges for deployment. Traditional approaches to reduce memory requirements include weight pruning and quantization. Motivated by the Router-weighted Expert Activation Pruning (REAP) that prunes experts, we propose a novel method, Router-weighted Expert Activation Merging (REAM). Instead of removing experts, REAM groups them and merges their weights, better preserving original performance. We evaluate REAM against REAP and other baselines across multiple MoE LLMs on diverse multiple-choice (MC) question answering and generative (GEN) benchmarks. Our results reveal a trade-off between MC and GEN performance that depends on the mix of calibration data. By controlling the mix of general, math and coding data, we examine the Pareto frontier of this trade-off and show that REAM often outperforms the baselines and in many cases is comparable to the original uncompressed models.
- Abstract(参考訳): Mixture-of-Experts (MoE) Large Language Model (LLM) は、最もパフォーマンスの高いアーキテクチャの一つである。
数十億のパラメータを持つ最大のモデルでは、デプロイメントにおいて重大なメモリ障害が発生します。
メモリ要求を減らす従来のアプローチには、重み付けと量子化がある。
本稿では,Reuter-weighted Expert Activation Merging (REAM)を提案する。
専門家を排除するのではなく、REAMはそれらをグループ化し、彼らの重みをマージし、オリジナルのパフォーマンスをよりよく保存する。
複数のMOE LLMをまたいだREAMとREAPと他のベースラインを多種多目的質問応答(MC)とジェネレーション(GEN)ベンチマークで評価した。
その結果,キャリブレーションデータの混合に依存するMCとGENのパフォーマンスのトレードオフが明らかになった。
このトレードオフのParetoフロンティアを解析し、REAMがベースラインを上回り、多くの場合、オリジナルの非圧縮モデルに匹敵することを示す。
関連論文リスト
- Think Then Embed: Generative Context Improves Multimodal Embedding [51.76690812535934]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning [32.943971698086735]
マルチモーダルPRMのためのドメイン重み付けトレーニングフレームワークであるDreamPRMを紹介する。
低レベルの最適化では、DreamPRMはドメイン重み付き複数のデータセットで微調整を行う。
上位レベルの最適化では、PRMは別個のメタ学習データセットで評価される。
論文 参考訳(メタデータ) (2025-05-26T17:20:17Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free [21.59456761618456]
大規模言語モデル(LLM)は生成タスクに優れ、デコーダのみのアーキテクチャは、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性を制限することが多い。
我々の研究は、MoE LLMのエキスパートルータが、様々な組込みタスクに対して有望な性能を持つ既製の組込みモデルとして機能できることを示唆している。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models [43.29533894162248]
LLMの開発には、大量のデータに基づく基礎モデルの事前トレーニングと、専門的な専門家を作成するためのタスク固有のデータの微調整が含まれる。
以前のアプローチでは、事前訓練された重みとデルタ重みとして専門家の重みを分解し、続いてデルタ重みを定量化してモデルサイズを減少させた。
複数のLLMを提供するのに適したメモリ効率の高いエキスパートスイッチングフレームワークであるME-Switchを紹介する。
論文 参考訳(メタデータ) (2024-06-13T12:27:55Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。