論文の概要: Enhancing Mixture-of-Experts Specialization via Cluster-Aware Upcycling
- arxiv url: http://arxiv.org/abs/2604.13508v2
- Date: Fri, 17 Apr 2026 03:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.302513
- Title: Enhancing Mixture-of-Experts Specialization via Cluster-Aware Upcycling
- Title(参考訳): クラスタ・アウェア・アップサイクルによるMixture-of-Expertsのスペシャライゼーションの強化
- Authors: Sanghyeok Chu, Pyunghwan Ahn, Gwangmo Song, SeungHwan Kim, Honglak Lee, Bohyung Han,
- Abstract要約: クラスタ対応のアップサイクリングは専門家の対称性を破り、データ分散に合わせて早期の特殊化を促進する。
CLIP ViT-B/32 と ViT-B/16 で評価すると、クラスタ対応の Upcycling は既存のメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 64.1662577506775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse Upcycling provides an efficient way to initialize a Mixture-of-Experts (MoE) model from pretrained dense weights instead of training from scratch. However, since all experts start from identical weights and the router is randomly initialized, the model suffers from expert symmetry and limited early specialization. We propose Cluster-aware Upcycling, a strategy that incorporates semantic structure into MoE initialization. Our method first partitions the dense model's input activations into semantic clusters. Each expert is then initialized using the subspace representations of its corresponding cluster via truncated SVD, while setting the router's initial weights to the cluster centroids. This cluster-aware initialization breaks expert symmetry and encourages early specialization aligned with the data distribution. Furthermore, we introduce an expert-ensemble self-distillation loss that stabilizes training by providing reliable routing guidance using an ensemble teacher. When evaluated on CLIP ViT-B/32 and ViT-B/16, Cluster-aware Upcycling consistently outperforms existing methods across both zero-shot and few-shot benchmarks. The proposed method also produces more diverse and disentangled expert representations, reduces inter-expert similarity, and leads to more confident routing behavior. Project page: https://sanghyeokchu.github.io/cluster-aware-upcycling/
- Abstract(参考訳): スパース・アップサイクリング(Sparse Upcycling)は、スクラッチからトレーニングする代わりに、トレーニング済みの密集重量からMixture-of-Experts(MoE)モデルを初期化する効率的な方法を提供する。
しかし、全ての専門家は同じ重みから始まり、ルータはランダムに初期化されるので、モデルは専門家対称性と限定的な初期特殊化に悩まされる。
我々は,意味構造をMoE初期化に組み込む戦略として,クラスタ対応のアップサイクリングを提案する。
提案手法は,まず高密度モデルの入力アクティベーションをセマンティッククラスタに分割する。
それぞれのエキスパートは、対応するクラスタのサブスペース表現を使用して、トラッピングされたSVDを介して初期化され、ルータの初期重みをクラスタセントロイドに設定する。
このクラスタ対応初期化は専門家の対称性を破り、データ分布に合わせた早期の特殊化を促進する。
さらに、アンサンブル教師を用いた信頼できるルーティング指導を提供することにより、訓練を安定させるエキスパート・アンサンブルの自己蒸留損失を導入する。
CLIP ViT-B/32とViT-B/16で評価されると、クラスタ対応のUpcyclingはゼロショットと少数ショットのベンチマークの両方で、既存のメソッドを一貫して上回っている。
提案手法は, より多様で不整合な専門家表現を生成し, 専門家間の類似性を低減し, より確実なルーティング動作をもたらす。
プロジェクトページ: https://sanghyeokchu.github.io/cluster-aware-upcycling/
関連論文リスト
- DiEC: Diffusion Embedded Clustering [0.76629754443761]
ディープクラスタリングは、明確なクラスタ構造を公開する表現に依存します。
従来のほとんどのメソッドは、オートエンコーダや自己教師付きエンコーダによる単一の埋め込みを学び、クラスタリングの第一の表現として扱う。
本研究では,事前学習した拡散U-Netの中間活性化を直接利用して,この軌道を利用する教師なしクラスタリングフレームワークであるEmbed Diffusion Clustering (DiEC)を提案する。
論文 参考訳(メタデータ) (2025-12-24T03:10:00Z) - Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression [14.086434595924716]
Mixture-of-Experts (MoE) Large Language Models (LLM) は負荷不均衡、パラメータの冗長性、通信オーバーヘッドのトリレンマに直面している。
動的専門家クラスタリングと構造化圧縮に基づいて統合されたフレームワークを導入し,これらの問題に協調的に対処する。
論文 参考訳(メタデータ) (2025-09-27T10:45:58Z) - Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。
最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。
いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-16T09:38:11Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - An Efficient Framework for Clustered Federated Learning [26.24231986590374]
本稿では,ユーザがクラスタに分散するフェデレーション学習(FL)の問題に対処する。
反復フェデレーションクラスタリングアルゴリズム(IFCA)を提案する。
ニューラルネットワークのような非分割問題では,アルゴリズムが効率的であることを示す。
論文 参考訳(メタデータ) (2020-06-07T08:48:59Z) - Open-Set Recognition with Gaussian Mixture Variational Autoencoders [91.3247063132127]
推論において、オープンセット分類は、サンプルをトレーニングから既知のクラスに分類するか、未知のクラスとして拒絶するかのどちらかである。
我々は,協調的に再構築を学習し,潜在空間におけるクラスベースのクラスタリングを行うよう,我々のモデルを訓練する。
我々のモデルは、より正確で堅牢なオープンセット分類結果を実現し、平均的なF1改善率は29.5%である。
論文 参考訳(メタデータ) (2020-06-03T01:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。