論文の概要: Mixture of Experts Made Intrinsically Interpretable
- arxiv url: http://arxiv.org/abs/2503.07639v1
- Date: Wed, 05 Mar 2025 17:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:48.220093
- Title: Mixture of Experts Made Intrinsically Interpretable
- Title(参考訳): 本質的に解釈可能な専門家の混在
- Authors: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr,
- Abstract要約: 我々は,emphintrinsically interpretableとして設計されたMixture-of-Experts (MoE)言語モデルである textbfMoE-X を提案する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
MoE-X は GPT-2 よりもパープレキシティが良く、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超えている。
- 参考スコア(独自算出の注目度): 34.36996159677674
- License:
- Abstract: Neurons in large language models often exhibit \emph{polysemanticity}, simultaneously encoding multiple unrelated concepts and obscuring interpretability. Instead of relying on post-hoc methods, we present \textbf{MoE-X}, a Mixture-of-Experts (MoE) language model designed to be \emph{intrinsically} interpretable. Our approach is motivated by the observation that, in language models, wider networks with sparse activations are more likely to capture interpretable factors. However, directly training such large sparse networks is computationally prohibitive. MoE architectures offer a scalable alternative by activating only a subset of experts for any given input, inherently aligning with interpretability objectives. In MoE-X, we establish this connection by rewriting the MoE layer as an equivalent sparse, large MLP. This approach enables efficient scaling of the hidden size while maintaining sparsity. To further enhance interpretability, we enforce sparse activation within each expert and redesign the routing mechanism to prioritize experts with the highest activation sparsity. These designs ensure that only the most salient features are routed and processed by the experts. We evaluate MoE-X on chess and natural language tasks, showing that it achieves performance comparable to dense models while significantly improving interpretability. MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing even sparse autoencoder (SAE)-based approaches.
- Abstract(参考訳): 大規模言語モデルにおけるニューロンは、複数の無関係な概念を同時に符号化し、解釈可能性を排除する「emph{polysemanticity}」を示すことが多い。
ポストホックなメソッドに頼る代わりに、emph{intrinsically} で解釈できるように設計されたMixture-of-Experts (MoE)言語モデルである \textbf{MoE-X} を提示する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
しかし、そのような大きなスパースネットワークを直接訓練することは、計算的に禁止されている。
MoEアーキテクチャは、任意の入力に対して専門家のサブセットのみを活性化することで、スケーラブルな代替手段を提供する。
MoE-Xでは、MoE層を等価なスパース、大きなMLPとして書き換えることで、この接続を確立する。
このアプローチは、疎性を維持しながら、隠れたサイズの効率的なスケーリングを可能にする。
解釈可能性をさらに高めるため、各専門家にスパースアクティベーションを強制し、ルーティング機構を再設計し、最もアクティベーション頻度の高い専門家を優先順位付けする。
これらの設計により、最も健全な特徴だけが専門家によってルーティングされ、処理されることが保証される。
チェスや自然言語のタスクでMoE-Xを評価することで,高密度モデルに匹敵する性能を実現し,解釈可能性を大幅に向上することを示す。
MoE-X は GPT-2 よりも複雑であり、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超越している。
関連論文リスト
- Retrieval-Augmented Semantic Parsing: Using Large Language Models to Improve Generalization [6.948555996661213]
本稿では,Retrieval-Augmented Semantic Parsing (RASP)を紹介する。
実験の結果,LLMはセマンティック解析において,従来のエンコーダ・デコーダベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-12-13T15:30:20Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Scalable Interpretability via Polynomials [33.51591891812176]
GAM(Generalized Additive Models)は、完全に解釈可能な機械学習の主要な選択肢である。
DNNのような解釈不能な方法とは異なり、パワーとスケーラビリティに欠けており、現実のタスクでは実現不可能な代替手段である。
我々は、モデルのテンソル分解を用いて、強力な$textitfully-prepretable$高次相互作用を学習する新しいクラスのGAMを提案する。
論文 参考訳(メタデータ) (2022-05-27T17:19:05Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。