論文の概要: Do Domain-specific Experts exist in MoE-based LLMs?
- arxiv url: http://arxiv.org/abs/2604.05267v1
- Date: Tue, 07 Apr 2026 00:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.540002
- Title: Do Domain-specific Experts exist in MoE-based LLMs?
- Title(参考訳): ドメイン固有のエキスパートは、MoEベースのLLMに存在しているか?
- Authors: Giang Do, Hung Le, Truyen Tran,
- Abstract要約: トレーニング不要なフレームワークである textbfDomain Steering Mixture of Experts (DSMoE) を提案する。
提案手法は,推論コストを増大させることなく高い性能とロバストな一般化を実現する。
- 参考スコア(独自算出の注目度): 14.774596844618396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of Large Language Models (LLMs), the Mixture of Experts (MoE) architecture has emerged as an effective approach for training extremely large models with improved computational efficiency. This success builds upon extensive prior research aimed at enhancing expert specialization in MoE-based LLMs. However, the nature of such specializations and how they can be systematically interpreted remain open research challenges. In this work, we investigate this gap by posing a fundamental question: \textit{Do domain-specific experts exist in MoE-based LLMs?} To answer the question, we evaluate ten advanced MoE-based LLMs ranging from 3.8B to 120B parameters and provide empirical evidence for the existence of domain-specific experts. Building on this finding, we propose \textbf{Domain Steering Mixture of Experts (DSMoE)}, a training-free framework that introduces zero additional inference cost and outperforms both well-trained MoE-based LLMs and strong baselines, including Supervised Fine-Tuning (SFT). Experiments on four advanced open-source MoE-based LLMs across both target and non-target domains demonstrate that our method achieves strong performance and robust generalization without increasing inference cost or requiring additional retraining. Our implementation is publicly available at https://github.com/giangdip2410/Domain-specific-Experts.
- Abstract(参考訳): LLM(Large Language Models)の時代、Mixture of Experts (MoE)アーキテクチャは、計算効率を向上して非常に大きなモデルをトレーニングするための効果的なアプローチとして登場した。
この成功は、MoEベースのLSMにおける専門家の専門性を高めることを目的とした広範な先行研究に基づいている。
しかし、そのような専門化の性質と体系的に解釈する方法は、依然としてオープンな研究課題である。
本研究では,このギャップについて,基本的疑問を呈する: MoE ベースの LLM にドメイン固有の専門家が存在するか?
この疑問に答えるために、我々は3.8Bから120Bまでの10種類のMoEベースのLCMを評価し、ドメイン固有の専門家の存在に関する実証的な証拠を提供する。
この結果に基づいて,トレーニング不要なフレームワークである‘textbf{Domain Steering Mixture of Experts(DSMoE)’を提案する。
ターゲットドメインと非ターゲットドメインの両方にまたがる4つの高度なオープンソースMOEベースのLCM実験により,提案手法は推論コストを増大させることなく高い性能と堅牢な一般化を実現し,さらなる再学習を必要とすることを示した。
私たちの実装はhttps://github.com/giangdip2410/Domain-specific-Experts.comで公開されています。
関連論文リスト
- Expert Divergence Learning for MoE-based Language Models [21.857507958048696]
本稿では,専門家間の機能的専門化を明確に促進する,新しい事前学習戦略であるExpert Divergence Learningを紹介する。
本手法は,事前学習コーパスに固有のドメインラベルを活用するラベル駆動補助損失を組み込む。
我々は,最大150億パラメータのMoEモデルをスクラッチから事前学習することで,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2026-02-10T06:58:38Z) - Mixing Expert Knowledge: Bring Human Thoughts Back To the Game of Go [74.28228642327726]
大規模言語モデル (LLM) は数学やコーディングなどの推論タスクにおいて例外的な性能を示した。
LoGosは、優れた一般的な推論能力を維持するだけでなく、自然言語でGoのゲームプレイも行う強力なLLMである。
LoGosは人間のプロプレイヤーに匹敵するパフォーマンスを達成し、既存のLLMをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-23T05:00:49Z) - Evaluating Expert Contributions in a MoE LLM for Quiz-Based Tasks [0.0]
クイズに基づくMMLUベンチマークのエキスパートコントリビューションを評価する。
このベンチマークでは,ほとんどの専門家が推論中にアクティベートされることはありませんでした。
また、同じレイヤ内の一部の専門家の平均的なパフォーマンスが著しく異なることも示しています。
論文 参考訳(メタデータ) (2025-02-24T14:23:52Z) - Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
本研究は, モジュール性の重要性, マルチベースLCMへの適用性, 効率的でスケーラブルで適応可能なシステムの実現における自己改善の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [44.848642930797155]
OpenMoEは、完全にオープンソースで再現可能なデコーダのみのMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)のシリーズである。
本研究は,MoEをベースとしたLLMの方が高密度LLMよりも良好なコスト効率のトレードオフを提供できることを確認した。
MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性がある。
論文 参考訳(メタデータ) (2024-01-29T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。