論文の概要: Automatic Expert Discovery in LLM Upcycling via Sparse Interpolated Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2506.12597v1
- Date: Sat, 14 Jun 2025 18:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.503987
- Title: Automatic Expert Discovery in LLM Upcycling via Sparse Interpolated Mixture-of-Experts
- Title(参考訳): Sparse Interpolated Mixture-of-ExpertsによるLLMアップサイクリングのエキスパート自動発見
- Authors: Shengzhuang Chen, Ying Wei, Jonathan Richard Schwarz,
- Abstract要約: SIMoEは、高密度トレーニング済みのLarge Language Model(LLM)をMoEスタイルのモデルに微調整するために設計されたエンドツーエンドのアルゴリズムである。
命令チューニング中、SIMoEは指定された空間制約の下で複数の専門専門家を自動的に識別する。
- 参考スコア(独自算出の注目度): 6.091286069993439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Sparse Interpolated Mixture-of-Experts (SIMoE) instruction-tuning, an end-to-end algorithm designed to fine-tune a dense pre-trained Large Language Model (LLM) into a MoE-style model that possesses capabilities in multiple specialized domains. During instruction-tuning, SIMoE automatically identifies multiple specialized experts under a specified sparsity constraint, with each expert representing a structurally sparse subset of the seed LLM's parameters that correspond to domain-specific knowledge within the data. SIMoE simultaneously learns an input-dependent expert merging strategy via a router network, leveraging rich cross-expert knowledge for superior downstream generalization that surpasses existing baselines. Empirically, SIMoE consistently achieves state-of-the-art performance on common instruction-tuning benchmarks while maintaining an optimal performance-compute trade-off compared to all baselines.
- Abstract(参考訳): Sparse Interpolated Mixture-of-Experts (SIMoE) 命令チューニングは,高密度な事前学習型Large Language Model (LLM) を複数の専門ドメインで機能を持つMOEスタイルのモデルに微調整するエンドツーエンドのアルゴリズムである。
命令チューニング中、SIMoEは指定された空間制約の下で複数の専門専門家を自動的に識別し、各専門家はデータ内のドメイン固有の知識に対応するシードLLMのパラメータの構造的にスパースなサブセットを表す。
SIMoEは、ルータネットワークを介して入力依存のエキスパートマージ戦略を同時に学習し、豊富なクロスエキスパート知識を活用し、既存のベースラインを超越した下流一般化を実現する。
SIMoEは、すべてのベースラインと比較して最適なパフォーマンスと計算のトレードオフを維持しつつ、一般的な命令チューニングベンチマークにおける最先端のパフォーマンスを一貫して達成する。
関連論文リスト
- Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。
近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。
本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文 参考訳(メタデータ) (2025-04-29T11:06:03Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Personalized Federated Fine-Tuning for LLMs via Data-Driven Heterogeneous Model Architectures [15.645254436094055]
Federated Learning (FL) は、生データにアクセスすることなく、大規模言語モデルの協調的な微調整を可能にする。
データ駆動の異種モデルアーキテクチャを実現する軽量なパーソナライズFLフレームワークであるFedAMoLEを提案する。
実験の結果、FedAMoLEはクライアントサイドのパフォーマンスを既存のアプローチと比べて平均5.14%改善している。
論文 参考訳(メタデータ) (2024-11-28T13:20:38Z) - Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
本研究は, モジュール性の重要性, マルチベースLCMへの適用性, 効率的でスケーラブルで適応可能なシステムの実現における自己改善の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multi-Task Dense Prediction via Mixture of Low-Rank Experts [35.11968315125389]
MLoRE(Mixture-of-Low-Rank-Experts)と呼ばれる,マルチタスクの高密度予測のためのデコーダに着目した新しい手法を提案する。
グローバルなタスク関係をモデル化するために、MLoREは元のMoE構造に汎用的な畳み込みパスを追加し、各タスク機能は、明示的なパラメータ共有のためにこのパスを通ることができる。
実験の結果,MLoREは従来のすべてのメトリクスの最先端手法に比べて優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-26T14:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。