論文の概要: Exploring Expert Specialization through Unsupervised Training in Sparse Mixture of Experts
- arxiv url: http://arxiv.org/abs/2509.10025v1
- Date: Fri, 12 Sep 2025 07:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.006112
- Title: Exploring Expert Specialization through Unsupervised Training in Sparse Mixture of Experts
- Title(参考訳): スパースミキサーにおける教師なし訓練によるエキスパートスペシャライゼーションの探求
- Authors: Strahinja Nikolic, Ilker Oguz, Demetri Psaltis,
- Abstract要約: 本稿では,SMOE-VAEアーキテクチャを新たに構築したSparse Mixture of Experts Variational Autoencoder(SMOE-VAE)について検討する。
我々は、クイックDrawデータセットを用いて、教師なしのエキスパートルーティングを、地上構造ラベルでガイドされた教師付きベースラインと比較する。
意外なことに、教師なしルーティングは、常に優れた再構築性能を実現する。
- 参考スコア(独自算出の注目度): 1.6143062786972913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the internal organization of neural networks remains a fundamental challenge in deep learning interpretability. We address this challenge by exploring a novel Sparse Mixture of Experts Variational Autoencoder (SMoE-VAE) architecture. We test our model on the QuickDraw dataset, comparing unsupervised expert routing against a supervised baseline guided by ground-truth labels. Surprisingly, we find that unsupervised routing consistently achieves superior reconstruction performance. The experts learn to identify meaningful sub-categorical structures that often transcend human-defined class boundaries. Through t-SNE visualizations and reconstruction analysis, we investigate how MoE models uncover fundamental data structures that are more aligned with the model's objective than predefined labels. Furthermore, our study on the impact of dataset size provides insights into the trade-offs between data quantity and expert specialization, offering guidance for designing efficient MoE architectures.
- Abstract(参考訳): ニューラルネットワークの内部構造を理解することは、ディープラーニングの解釈可能性における根本的な課題である。
本稿は,SMOE-VAEアーキテクチャ(Sparse Mixture of Experts Variational Autoencoder)を提案することで,この問題に対処する。
我々は、クイックDrawデータセットを用いて、教師なしのエキスパートルーティングを、地上構造ラベルでガイドされた教師付きベースラインと比較する。
意外なことに、教師なしルーティングは、常に優れた再構築性能を実現する。
専門家は、しばしば人間の定義したクラスの境界を超えた意味のあるサブカテゴリ構造を特定することを学ぶ。
t-SNEビジュアライゼーションと再構成解析により,MoEモデルが事前定義されたラベルよりもモデルの目的に整合した基本データ構造をいかに明らかにするかを検討する。
さらに,データセットサイズの影響について検討した結果,データ量と専門家の専門化のトレードオフに関する知見が得られ,効率的なMoEアーキテクチャ設計のためのガイダンスが提供される。
関連論文リスト
- RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging [69.2230254959204]
我々は,統合されたMoEモデルにおけるIP保護のためのフレームワークであるRouteMarkを提案する。
我々の重要な洞察は、タスク固有の専門家は、探索入力の下で安定かつ独特なルーティング行動を示すことである。
属性と改ざん検出のために,類似性に基づくマッチングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-03T14:51:58Z) - On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。
本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文 参考訳(メタデータ) (2025-05-16T04:58:18Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Segment Any Building [8.12405696290333]
この原稿は、画像にセグメンテーションを構築するための最先端表現学習パラダイムを用いて、多様なデータセットをタンデムで活用する能力をアクセント化する。
我々の前衛合同訓練体制は, 都市インフラ整備, 防災戦略, 生態モニタリングなど, 重要な分野に重大な影響を及ぼし, アプローチのメリットを浮き彫りにしている。
この研究の結果は、学術的な追求の基盤を固めることと、セグメンテーション構築の分野における革新的な応用による地平線を埋めることの両方に繋がる。
論文 参考訳(メタデータ) (2023-10-02T12:49:20Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Interpretable Mixture of Experts [71.55701784196253]
Interpretable Mixture of Experts (IME)は本質的に解釈可能なモデリングフレームワークである。
IMEは単一の解釈可能なモデルよりも正確であることが示され、既存の最先端のDeep Neural Networks(DNN)と正確に比較できる。
IMEの説明は、ユーザスタディを通じて一般的に使われているポストホックな説明法と比較される。
論文 参考訳(メタデータ) (2022-06-05T06:40:15Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。