論文の概要: Tight Clusters Make Specialized Experts
- arxiv url: http://arxiv.org/abs/2502.15315v1
- Date: Fri, 21 Feb 2025 09:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:15.947995
- Title: Tight Clusters Make Specialized Experts
- Title(参考訳): タイトなクラスタが専門のエキスパートになる
- Authors: Stefan K. Nielsen, Rachel S. Y. Teo, Laziz U. Abdullaev, Tan M. Nguyen,
- Abstract要約: Sparse Mixture-of-Experts (MoE)アーキテクチャは、計算コストからモデルキャパシティを分離するための有望なアプローチとして登場した。
本稿では,入力トークンを適切な専門家に送信するために,入力分布の基盤となるクラスタリング構造を学習する新しいルータを提案する。
当社のACルータは,1) 収束速度の向上,2) データの破損に対する堅牢性の向上,3) 全体的な性能改善という,MoEモデルに接続した3つの利点を得ることができる。
- 参考スコア(独自算出の注目度): 1.7597562616011944
- License:
- Abstract: Sparse Mixture-of-Experts (MoE) architectures have emerged as a promising approach to decoupling model capacity from computational cost. At the core of the MoE model is the router, which learns the underlying clustering structure of the input distribution in order to send input tokens to appropriate experts. However, latent clusters may be unidentifiable in high dimension, which causes slow convergence, susceptibility to data contamination, and overall degraded representations as the router is unable to perform appropriate token-expert matching. We examine the router through the lens of clustering optimization and derive optimal feature weights that maximally identify the latent clusters. We use these weights to compute the token-expert routing assignments in an adaptively transformed space that promotes well-separated clusters, which helps identify the best-matched expert for each token. In particular, for each expert cluster, we compute a set of weights that scales features according to whether that expert clusters tightly along that feature. We term this novel router the Adaptive Clustering (AC) router. Our AC router enables the MoE model to obtain three connected benefits: 1) faster convergence, 2) better robustness to data corruption, and 3) overall performance improvement, as experts are specialized in semantically distinct regions of the input space. We empirically demonstrate the advantages of our AC router over baseline routing methods when applied on a variety of MoE backbones for language modeling and image recognition tasks in both clean and corrupted settings.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)アーキテクチャは、計算コストからモデルキャパシティを分離するための有望なアプローチとして登場した。
MoEモデルのコアとなるルータは,入力分布の基盤となるクラスタリング構造を学習し,入力トークンを適切な専門家に送信するルータである。
しかし、遅延クラスタは高次元では識別できないため、収束が遅く、データ汚染への感受性が低く、ルータが適切なトークン-専門家マッチングを行うことができないため、全体的な劣化した表現が可能である。
我々は、クラスタリング最適化のレンズを通してルータを調べ、潜在クラスタを最大に識別する最適な特徴重みを導出する。
これらの重みを使って、順応的に変換された空間におけるトークン-エキスパートルーティングの割り当てを計算し、適切に分離されたクラスタを促進し、トークンごとに最適な専門家を特定するのに役立ちます。
特に、各専門家クラスタに対して、その専門家クラスタがその特徴に沿って厳格に進んでいるかどうかに応じて、機能をスケールする一連の重みを計算します。
我々はこの新しいルータをアダプティブクラスタリング(AC)ルータと呼ぶ。
我々のACルータは、MoEモデルが3つの接続された利点を得ることができる。
1)より早く収束する。
2)データ破損に対する堅牢性の向上,及び
3) 専門家は入力空間の意味的に異なる領域に特化しているため,総合的な性能向上が期待できる。
言語モデリングや画像認識のタスクにおいて,さまざまなMoEバックボーンに適用した場合に,ベースラインルーティング方式よりもACルータの利点を実証的に示す。
関連論文リスト
- OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Contrastive Fine-grained Class Clustering via Generative Adversarial
Networks [9.667133604169829]
コントラスト学習を適用することでInfoGANのカテゴリ推論能力を活用する手法であるC3-GANを紹介する。
C3-GANは4つのきめ細かいベンチマークデータセットで最先端のクラスタリング性能を達成した。
論文 参考訳(メタデータ) (2021-12-30T08:57:11Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - A Framework for Joint Unsupervised Learning of Cluster-Aware Embedding
for Heterogeneous Networks [6.900303913555705]
Heterogeneous Information Network (HIN) は、HINの構造と意味を保存しているHINノードの低次元投影を指す。
本稿では,クラスタ埋め込みとクラスタ認識HIN埋め込みの併用学習を提案する。
論文 参考訳(メタデータ) (2021-08-09T11:36:36Z) - Joint Optimization of an Autoencoder for Clustering and Embedding [22.16059261437617]
本稿では,自動エンコーダとクラスタリングを同時に学習する代替手法を提案する。
この単純なニューラルネットワークはクラスタリングモジュールと呼ばれ、ディープオートエンコーダに統合され、ディープクラスタリングモデルとなる。
論文 参考訳(メタデータ) (2020-12-07T14:38:10Z) - Dual Adversarial Auto-Encoders for Clustering [152.84443014554745]
教師なしクラスタリングのためのDual-AAE(Dual-AAE)を提案する。
Dual-AAEの目的関数に対する変分推論を行うことで,一対のオートエンコーダをトレーニングすることで最適化可能な新たな再構成損失を導出する。
4つのベンチマーク実験により、Dual-AAEは最先端のクラスタリング手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-23T13:16:34Z) - Learning to Cluster Faces via Confidence and Connectivity Estimation [136.5291151775236]
重複する部分グラフを多数必要とせず,完全に学習可能なクラスタリングフレームワークを提案する。
提案手法はクラスタリングの精度を大幅に向上させ,その上で訓練した認識モデルの性能を向上させるが,既存の教師付き手法に比べて桁違いに効率的である。
論文 参考訳(メタデータ) (2020-04-01T13:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。