論文の概要: Monet: Mixture of Monosemantic Experts for Transformers
- arxiv url: http://arxiv.org/abs/2412.04139v1
- Date: Thu, 05 Dec 2024 13:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:06.317741
- Title: Monet: Mixture of Monosemantic Experts for Transformers
- Title(参考訳): Monet: トランスフォーマーのためのモノセマンティックエキスパートの混在
- Authors: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang,
- Abstract要約: トランスフォーマー(Monet)アーキテクチャのためのモノセマンティックエキスパート(Mixture of Monosemantic Experts)を紹介する。
Monetはスパース辞書学習を直接エンドツーエンドのMixture-of-Expertsプリトレーニングに組み込む。
本分析は,専門家間の知識の相互排他性を示し,各専門家にカプセル化されたパラメトリック知識を示す。
- 参考スコア(独自算出の注目度): 33.8311330578753
- License:
- Abstract: Understanding the internal computations of large language models (LLMs) is crucial for aligning them with human values and preventing undesirable behaviors like toxic content generation. However, mechanistic interpretability is hindered by polysemanticity -- where individual neurons respond to multiple, unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to disentangle these features through sparse dictionary learning, they have compromised LLM performance due to reliance on post-hoc reconstruction loss. To address this issue, we introduce Mixture of Monosemantic Experts for Transformers (Monet) architecture, which incorporates sparse dictionary learning directly into end-to-end Mixture-of-Experts pretraining. Our novel expert decomposition method enables scaling the expert count to 262,144 per layer while total parameters scale proportionally to the square root of the number of experts. Our analyses demonstrate mutual exclusivity of knowledge across experts and showcase the parametric knowledge encapsulated within individual experts. Moreover, Monet allows knowledge manipulation over domains, languages, and toxicity mitigation without degrading general performance. Our pursuit of transparent LLMs highlights the potential of scaling expert counts to enhance} mechanistic interpretability and directly resect the internal knowledge to fundamentally adjust} model behavior. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Monet.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部計算を理解することは、それらを人間の値と整合させ、有害なコンテンツ生成のような望ましくない行動を防ぐために不可欠である。
しかし、機械論的解釈は多意味性によって妨げられ、個々のニューロンは複数の無関係な概念に反応する。
スパースオートエンコーダ (SAE) は、これらの特徴をスパース辞書学習によって解き明かそうとしているが、ポストホック復元の損失に頼ってLLM性能を損なう。
この問題に対処するため,単調なトランスフォーマーのためのMixture of Monosemantic Experts for Transformers (Monet)アーキテクチャを導入し,スパース辞書学習を直接エンドツーエンドのMixture-of-Expertsプリトレーニングに組み込む。
新たな専門家分解法により,専門家数を262,144層に拡張できる一方,全パラメータは専門家数の平方根に比例してスケールすることができる。
本分析は,専門家間の知識の相互排他性を示し,各専門家にカプセル化されたパラメトリック知識を示す。
さらに、Monetは一般的なパフォーマンスを低下させることなく、ドメイン、言語、毒性の軽減に関する知識操作を可能にする。
我々の透明LLMの追求は、機械的解釈可能性を高め、内部知識を直接再認識し、モデル動作を根本的に調整する専門家数の拡大の可能性を強調します。
ソースコードと事前訓練されたチェックポイントはhttps://github.com/dmis-lab/Monet.comで入手できる。
関連論文リスト
- Mixture of Tunable Experts - Behavior Modification of DeepSeek-R1 at Inference Time [1.1655046053160683]
本稿では,Large Language Models(LLMs)のMixture-of-Expertsアーキテクチャを拡張する手法を提案する。
MoTEは、推論時間中のLLMにおける有意義で集中的な振る舞い変化を可能にする。
論文 参考訳(メタデータ) (2025-02-16T12:24:39Z) - More Experts Than Galaxies: Conditionally-overlapping Experts With Biologically-Inspired Fixed Routing [5.846028298833611]
Conditionally Overlapping Mixture of ExperTs (COMET) は、モジュラーでスパースなアーキテクチャを、指数関数的に重複する専門家数で誘導する一般的なディープラーニング手法である。
画像分類,言語モデリング,回帰といったタスクにおけるCOMETの有効性を示す。
論文 参考訳(メタデータ) (2024-10-10T14:58:18Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - Implicit Mixture of Interpretable Experts for Global and Local
Interpretability [0.0]
我々は,MNIST10上に解釈可能な画像分類器を構築するために,解釈可能な専門家(MoIE)の混合物を使用することの可能性を検討した。
ナイーブで訓練されたMoIEが'チート'を学習すると,ブラックボックスルータが自身で分類問題を解く。
任意の数の専門家を混合して構築できる新しい暗黙的パラメータ化手法を提案する。
論文 参考訳(メタデータ) (2022-12-01T12:54:42Z) - Interpretable Mixture of Experts [71.55701784196253]
Interpretable Mixture of Experts (IME)は本質的に解釈可能なモデリングフレームワークである。
IMEは単一の解釈可能なモデルよりも正確であることが示され、既存の最先端のDeep Neural Networks(DNN)と正確に比較できる。
IMEの説明は、ユーザスタディを通じて一般的に使われているポストホックな説明法と比較される。
論文 参考訳(メタデータ) (2022-06-05T06:40:15Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z) - LAP: An Attention-Based Module for Concept Based Self-Interpretation and
Knowledge Injection in Convolutional Neural Networks [2.8948274245812327]
本稿では,自己解釈性を実現するため,新しい注意型プール層であるLAP(Local Attention Pooling)を提案する。
LAPはどんな畳み込みニューラルネットワークにも簡単にプラグインできる。
LAPは一般的なホワイトボックスの説明法よりも、人間の理解しやすく忠実なモデル解釈を提供する。
論文 参考訳(メタデータ) (2022-01-27T21:10:20Z) - DEMix Layers: Disentangling Domains for Modular Language Modeling [92.57761975953453]
入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。
DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれがドメインに特化している。
実験によると、DEMixレイヤはテスト時間の複雑度を低減し、トレーニングの効率を向上し、オーバーヘッドの少ない迅速な適応を可能にする。
論文 参考訳(メタデータ) (2021-08-11T05:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。