論文の概要: Improving Neuron-level Interpretability with White-box Language Models
- arxiv url: http://arxiv.org/abs/2410.16443v1
- Date: Mon, 21 Oct 2024 19:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:13.837777
- Title: Improving Neuron-level Interpretability with White-box Language Models
- Title(参考訳): ホワイトボックス言語モデルによるニューロンレベルの解釈性の向上
- Authors: Hao Bai, Yi Ma,
- Abstract要約: 我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
- 参考スコア(独自算出の注目度): 11.898535906016907
- License:
- Abstract: Neurons in auto-regressive language models like GPT-2 can be interpreted by analyzing their activation patterns. Recent studies have shown that techniques such as dictionary learning, a form of post-hoc sparse coding, enhance this neuron-level interpretability. In our research, we are driven by the goal to fundamentally improve neural network interpretability by embedding sparse coding directly within the model architecture, rather than applying it as an afterthought. In our study, we introduce a white-box transformer-like architecture named Coding RAte TransformEr (CRATE), explicitly engineered to capture sparse, low-dimensional structures within data distributions. Our comprehensive experiments showcase significant improvements (up to 103% relative improvement) in neuron-level interpretability across a variety of evaluation metrics. Detailed investigations confirm that this enhanced interpretability is steady across different layers irrespective of the model size, underlining CRATE's robust performance in enhancing neural network interpretability. Further analysis shows that CRATE's increased interpretability comes from its enhanced ability to consistently and distinctively activate on relevant tokens. These findings point towards a promising direction for creating white-box foundation models that excel in neuron-level interpretation.
- Abstract(参考訳): GPT-2のような自己回帰言語モデルのニューロンは、その活性化パターンを分析することで解釈できる。
近年の研究では、ホック後のスパース符号化の形式である辞書学習のような手法が、このニューロンレベルの解釈可能性を高めることが示されている。
我々の研究は、モデルアーキテクチャに直接スパースコーディングを埋め込むことで、ニューラルネットワークの解釈可能性を大幅に改善することを目的としています。
本研究では,データ分散における疎小で低次元構造を捉えるために,CRATE (Coding RAte TransformEr) と呼ばれる白色変圧器型アーキテクチャを提案する。
我々の総合的な実験は、様々な評価指標でニューロンレベルの解釈可能性に大きな改善(最大103%の相対的な改善)を示した。
詳細な調査によると、この強化された解釈可能性は、モデルのサイズに関わらず、異なる層にわたって安定しており、ニューラルネットワークの解釈可能性を高めるCRATEの堅牢なパフォーマンスを裏付けている。
さらなる分析により、CRATEの解釈可能性の増大は、関連するトークンに対して一貫して一意に活性化する能力の強化によるものであることが示された。
これらの知見は、ニューロンレベルの解釈に優れるホワイトボックス基盤モデルを作成するための有望な方向に向かっている。
関連論文リスト
- Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Cognitive Networks and Performance Drive fMRI-Based State Classification Using DNN Models [0.0]
我々は、個々の認知状態を分類するために、構造的に異なる2つのDNNモデルと相補的なDNNモデルを用いる。
アーキテクチャ上の違いにもかかわらず、両者のモデルが常に予測精度と個人の認知性能との間に堅牢な関係を生んでいることを示す。
論文 参考訳(メタデータ) (2024-08-14T15:25:51Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Scale Alone Does not Improve Mechanistic Interpretability in Vision Models [16.020535763297175]
マシンビジョンは、データセットとモデルサイズの前例のないレベルまでニューラルネットワークをスケールすることで、目覚ましい進歩を見せている。
9種類のモデルからなる多種多様なスイートに対して、機械論的解釈可能性の1つの形態を定量化する。
調査対象の最先端モデルは,ほぼ10年前のGoogLeNetモデルよりも解釈が容易ではない。
論文 参考訳(メタデータ) (2023-07-11T17:56:22Z) - Neural Additive Models for Location Scale and Shape: A Framework for
Interpretable Neural Regression Beyond the Mean [1.0923877073891446]
ディープニューラルネットワーク(DNN)は、様々なタスクで非常に効果的であることが証明されている。
この成功にもかかわらず、DNNの内部構造はしばしば透明ではない。
この解釈可能性の欠如は、本質的に解釈可能なニューラルネットワークの研究の増加につながった。
論文 参考訳(メタデータ) (2023-01-27T17:06:13Z) - Seeking Interpretability and Explainability in Binary Activated Neural Networks [2.828173677501078]
本稿では、回帰タスクの文脈において、解釈可能かつ説明可能な予測子としてバイナリ活性化ニューラルネットワークを用いることについて検討する。
本稿では,特徴量,隠れニューロン,さらには重みの相対的重要性を定量化するために,SHAP値の効率的な計算法を提案する。
論文 参考訳(メタデータ) (2022-09-07T20:11:17Z) - Functional Network: A Novel Framework for Interpretability of Deep
Neural Networks [2.641939670320645]
本稿では,深層ニューラルネットワーク,すなわち関数型ネットワークの解釈可能性に関する新しい枠組みを提案する。
本実験では, バッチ正規化とドロップアウトという正則化手法のメカニズムを明らかにした。
論文 参考訳(メタデータ) (2022-05-24T01:17:36Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。