論文の概要: Implicit Mixture of Interpretable Experts for Global and Local
Interpretability
- arxiv url: http://arxiv.org/abs/2212.00471v1
- Date: Thu, 1 Dec 2022 12:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:21:26.069705
- Title: Implicit Mixture of Interpretable Experts for Global and Local
Interpretability
- Title(参考訳): グローバル・ローカル・インタープリタビリティのための解釈専門家のインプシット・ミックス
- Authors: Nathan Elazar, Kerry Taylor
- Abstract要約: 我々は,MNIST10上に解釈可能な画像分類器を構築するために,解釈可能な専門家(MoIE)の混合物を使用することの可能性を検討した。
ナイーブで訓練されたMoIEが'チート'を学習すると,ブラックボックスルータが自身で分類問題を解く。
任意の数の専門家を混合して構築できる新しい暗黙的パラメータ化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate the feasibility of using mixtures of interpretable experts
(MoIE) to build interpretable image classifiers on MNIST10. MoIE uses a
black-box router to assign each input to one of many inherently interpretable
experts, thereby providing insight into why a particular classification
decision was made. We find that a naively trained MoIE will learn to 'cheat',
whereby the black-box router will solve the classification problem by itself,
with each expert simply learning a constant function for one particular class.
We propose to solve this problem by introducing interpretable routers and
training the black-box router's decisions to match the interpretable router. In
addition, we propose a novel implicit parameterization scheme that allows us to
build mixtures of arbitrary numbers of experts, allowing us to study how
classification performance, local and global interpretability vary as the
number of experts is increased. Our new model, dubbed Implicit Mixture of
Interpretable Experts (IMoIE) can match state-of-the-art classification
accuracy on MNIST10 while providing local interpretability, and can provide
global interpretability albeit at the cost of reduced classification accuracy.
- Abstract(参考訳): 我々は,MNIST10上に解釈可能な画像分類器を構築するために,解釈可能な専門家(MoIE)の混合物を使用することの可能性を検討した。
MoIEはブラックボックスルータを使用して、各入力を多くの本質的に解釈可能な専門家に割り当てる。
ナイーブに訓練されたmoieは'チート'を学習し、ブラックボックスルータは分類問題を単独で解決し、各専門家は特定のクラスに対して一定の関数を学習する。
我々は,解釈可能なルータを導入し,解釈可能なルータにマッチするブラックボックスルータの決定をトレーニングすることで,この問題を解決することを提案する。
さらに,任意の数の専門家を混合して構成できる新しい暗黙的パラメータ化手法を提案し,専門家の数が増加するにつれて,分類性能,局所的,グローバル的解釈可能性がどのように変化するかを研究する。
提案手法は,局所的な解釈可能性を提供しつつ,mnist10の最先端の分類精度と一致し,分類精度を低下させることなくグローバル解釈可能性を提供することができる。
関連論文リスト
- Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Interpretable Mixture of Experts [71.55701784196253]
Interpretable Mixture of Experts (IME)は本質的に解釈可能なモデリングフレームワークである。
IMEは単一の解釈可能なモデルよりも正確であることが示され、既存の最先端のDeep Neural Networks(DNN)と正確に比較できる。
IMEの説明は、ユーザスタディを通じて一般的に使われているポストホックな説明法と比較される。
論文 参考訳(メタデータ) (2022-06-05T06:40:15Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - DEMix Layers: Disentangling Domains for Modular Language Modeling [92.57761975953453]
入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。
DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれがドメインに特化している。
実験によると、DEMixレイヤはテスト時間の複雑度を低減し、トレーニングの効率を向上し、オーバーヘッドの少ない迅速な適応を可能にする。
論文 参考訳(メタデータ) (2021-08-11T05:15:33Z) - Lifelong Mixture of Variational Autoencoders [15.350366047108103]
本稿では,専門家の終末から終末までの学習混合物を提案する。
混合システムのエキスパートは、個々の成分証拠の混合を最小限にすることで、共同で訓練される。
モデルは、これらが以前学んだものと似ている場合に、新しいタスクを素早く学習することができる。
論文 参考訳(メタデータ) (2021-07-09T22:07:39Z) - Making Neural Networks Interpretable with Attribution: Application to
Implicit Signals Prediction [11.427019313283997]
本稿では,属性処理のための解釈可能なディープニューラルネットワークの新たな定式化を提案する。
マスク付きの重量を使って隠れた特徴を深く評価し、いくつかの入力制限されたサブネットワークに分割し、専門家の強化された混合として訓練する。
論文 参考訳(メタデータ) (2020-08-26T06:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。