論文の概要: Sparse Crosscoders for diffing MoEs and Dense models
- arxiv url: http://arxiv.org/abs/2603.05805v1
- Date: Fri, 06 Mar 2026 01:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.880091
- Title: Sparse Crosscoders for diffing MoEs and Dense models
- Title(参考訳): 拡散型MoEとDenseモデルのためのスパースクロスコーダ
- Authors: Marmik Chaudhari, Nishkal Hundia, Idhant Gulati,
- Abstract要約: Mixture of Experts (MoE)はスパースエキスパートルーティングによるパラメータ効率のスケーリングを実現する。
MoEはより専門的で焦点を絞った表現を開発し、密集したモデルはより広く、より汎用的な特徴に情報を分散する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) achieve parameter-efficient scaling through sparse expert routing, yet their internal representations remain poorly understood compared to dense models. We present a systematic comparison of MoE and dense model internals using crosscoders, a variant of sparse autoencoders, that jointly models multiple activation spaces. We train 5-layer dense and MoEs (equal active parameters) on 1B tokens across code, scientific text, and english stories. Using BatchTopK crosscoders with explicitly designated shared features, we achieve $\sim 87\%$ fractional variance explained and uncover concrete differences in feature organization. The MoE learns significantly fewer unique features compared to the dense model. MoE-specific features also exhibit higher activation density than shared features, whereas dense-specific features show lower density. Our analysis reveals that MoEs develop more specialized, focused representations while dense models distribute information across broader, more general-purpose features.
- Abstract(参考訳): ミキチャー・オブ・エキスパート(MoE)はスパース・エキスパート・ルーティングを通じてパラメータ効率のスケーリングを実現するが、内部表現は高密度モデルに比べて理解しにくいままである。
複数のアクティベーション空間を共同でモデル化するスパースオートエンコーダの変種であるクロスコーダを用いて,MoEと高密度モデル内部の系統的比較を行った。
コード、科学テキスト、英語のストーリーにまたがる1Bトークンに、5層密度とMoE(等しくアクティブパラメータ)をトレーニングします。
BatchTopKクロスコーダを明示的に指定した共有機能を用いて,特徴組織における具体的差異を説明・明らかにし,$\sim 87\%の分数分散を実現する。
MoEは、濃密なモデルに比べて、非常に少ないユニークな特徴を学習する。
MoE特有の特徴は共有特徴よりも高い活性化密度を示すが、密度の高い特徴はより低い密度を示す。
分析の結果、MoEsはより専門的で集中した表現を発達させ、密集したモデルはより広範で汎用的な特徴に情報を分散していることが明らかとなった。
関連論文リスト
- Mixture of States: Routing Token-Level Dynamics for Multimodal Generation [60.15447534872979]
マルチモーダル拡散モデルのための新しい融合パラダイムであるMoS(Mixture of States)を紹介する。
MoSは学習可能なトークン指向ルータで、遅延時間ステップと入力依存のインタラクションを生成する。
我々は,画像のテキスト生成と編集による設計の検証を行い,その結果を得た。
論文 参考訳(メタデータ) (2025-11-15T13:24:57Z) - Sparsity and Superposition in Mixture of Experts [0.0]
我々は,MoEモデルを同一のレンズでメカニカルに説明できないことを示す。
特徴の疎さも特徴の重要さも相変わらずの相違の原因にはならない。
本稿では,負荷分散ではなく,単意味的特徴表現に基づく専門家専門化の新たな定義を提案する。
論文 参考訳(メタデータ) (2025-10-26T22:44:35Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression [74.0893986012049]
UniMMADは、マルチモーダルおよびマルチクラスの異常検出のための統一されたフレームワークである。
UniMMADは、9つの異常検出データセット上で、3つのフィールド、12のモダリティ、66のクラスにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-30T08:29:12Z) - MoD: A Distribution-Based Approach for Merging Large Language Models [0.0]
大規模言語モデル(LLM)は、多くの専門的なタスク固有の変種の開発を可能にした。
LLMをマージするための新しいアプローチであるTextitMixture of Distributions (MoD)フレームワークを提案する。
従来の重量測定法とは異なり、MoDは個々のモデルの特殊能力を効果的に保存する。
論文 参考訳(メタデータ) (2024-11-01T07:05:29Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。