論文の概要: Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders
- arxiv url: http://arxiv.org/abs/2505.21364v1
- Date: Tue, 27 May 2025 15:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.777878
- Title: Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders
- Title(参考訳): 犠牲のない解釈可能性に向けて:デコーダを混合した忠実な高密度層分解
- Authors: James Oldfield, Shawn Im, Yixuan Li, Mihalis A. Nicolaou, Ioannis Patras, Grigorios G Chrysos,
- Abstract要約: 多層パーセプトロン(MLP)は、大規模言語モデルの不可欠な部分である。
近年の手法では、ニューロンレベルの間隔を通して解釈可能な近似を学習するが、元のマッピングを忠実に再構築することはできなかった。
本稿では,スパース近似の精度トレードオフを克服するため,層レベルの空間性への移行を提唱する。
- 参考スコア(独自算出の注目度): 32.018429935819235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilayer perceptrons (MLPs) are an integral part of large language models, yet their dense representations render them difficult to understand, edit, and steer. Recent methods learn interpretable approximations via neuron-level sparsity, yet fail to faithfully reconstruct the original mapping--significantly increasing model's next-token cross-entropy loss. In this paper, we advocate for moving to layer-level sparsity to overcome the accuracy trade-off in sparse layer approximation. Under this paradigm, we introduce Mixture of Decoders (MxDs). MxDs generalize MLPs and Gated Linear Units, expanding pre-trained dense layers into tens of thousands of specialized sublayers. Through a flexible form of tensor factorization, each sparsely activating MxD sublayer implements a linear transformation with full-rank weights--preserving the original decoders' expressive capacity even under heavy sparsity. Experimentally, we show that MxDs significantly outperform state-of-the-art methods (e.g., Transcoders) on the sparsity-accuracy frontier in language models with up to 3B parameters. Further evaluations on sparse probing and feature steering demonstrate that MxDs learn similarly specialized features of natural language--opening up a promising new avenue for designing interpretable yet faithful decompositions. Our code is included at: https://github.com/james-oldfield/MxD/.
- Abstract(参考訳): 多層パーセプトロン(MLP)は大きな言語モデルの不可欠な部分であるが、その密度の高い表現は理解、編集、操舵を困難にしている。
近年の手法では、ニューロンレベルの間隔を通して解釈可能な近似を学習するが、元のマッピングを忠実に再構築することはできなかった。
本稿では,スパース層近似の精度トレードオフを克服するため,層レベルの空間化を提唱する。
このパラダイムでは、MixD(Mixture of Decoders)を紹介する。
MxDは、MLPとGated Linear Unitsを一般化し、事前訓練された高密度層を数万の特殊なサブレイヤーに拡張する。
フレキシブルなテンソル因子化によって、MxDサブ層は疎活性化され、フルランクの重みを持つ線形変換が実装される。
実験により,最大3Bパラメータを持つ言語モデルにおいて,MxDsは言語モデルの疎度精度フロンティアにおいて,最先端手法(例えばトランスコーダ)を著しく上回っていることがわかった。
スパース探索と特徴ステアリングに関するさらなる評価は、MxDが自然言語の類似した特化特徴を学習していることを示し、解釈可能で忠実な分解を設計するための有望な新しい道を開く。
私たちのコードは、https://github.com/james-oldfield/MxD/.com/です。
関連論文リスト
- Mixture of Experts Made Intrinsically Interpretable [34.36996159677674]
我々は,emphintrinsically interpretableとして設計されたMixture-of-Experts (MoE)言語モデルである textbfMoE-X を提案する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
MoE-X は GPT-2 よりもパープレキシティが良く、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超えている。
論文 参考訳(メタデータ) (2025-03-05T17:40:54Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Multiscale Invertible Generative Networks for High-Dimensional Bayesian
Inference [9.953855915186352]
高次元ベイズ推論を解くために,MsIGN(Multiscale Invertible Generative Network)を提案する。
MsIGNは後部の低次元の性質を利用し、粗さから微細なスケールまでサンプルを生成します。
自然な画像合成タスクでは、MsIGNはベースラインモデルよりもビット/次元で優れた性能を実現します。
論文 参考訳(メタデータ) (2021-05-12T07:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。