論文の概要: Codebook Features: Sparse and Discrete Interpretability for Neural
Networks
- arxiv url: http://arxiv.org/abs/2310.17230v1
- Date: Thu, 26 Oct 2023 08:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:20:35.901041
- Title: Codebook Features: Sparse and Discrete Interpretability for Neural
Networks
- Title(参考訳): Codebookの機能: ニューラルネットワークのスパースと離散解釈性
- Authors: Alex Tamkin, Mohammad Taufeeque, Noah D. Goodman
- Abstract要約: ニューラルネットワークが、疎く、離散的で、より解釈可能な隠された状態を持つように訓練できるかどうかを探る。
コードブックの特徴は、各層にベクトル量子化ボトルネックを持つニューラルネットワークを微調整することによって生成される。
ニューラルネットワークは、パフォーマンスをわずかに低下させるだけで、この極端なボトルネックの下で動作できることがわかりました。
- 参考スコア(独自算出の注目度): 43.06828312515959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding neural networks is challenging in part because of the dense,
continuous nature of their hidden states. We explore whether we can train
neural networks to have hidden states that are sparse, discrete, and more
interpretable by quantizing their continuous features into what we call
codebook features. Codebook features are produced by finetuning neural networks
with vector quantization bottlenecks at each layer, producing a network whose
hidden features are the sum of a small number of discrete vector codes chosen
from a larger codebook. Surprisingly, we find that neural networks can operate
under this extreme bottleneck with only modest degradation in performance. This
sparse, discrete bottleneck also provides an intuitive way of controlling
neural network behavior: first, find codes that activate when the desired
behavior is present, then activate those same codes during generation to elicit
that behavior. We validate our approach by training codebook Transformers on
several different datasets. First, we explore a finite state machine dataset
with far more hidden states than neurons. In this setting, our approach
overcomes the superposition problem by assigning states to distinct codes, and
we find that we can make the neural network behave as if it is in a different
state by activating the code for that state. Second, we train Transformer
language models with up to 410M parameters on two natural language datasets. We
identify codes in these models representing diverse, disentangled concepts
(ranging from negative emotions to months of the year) and find that we can
guide the model to generate different topics by activating the appropriate
codes during inference. Overall, codebook features appear to be a promising
unit of analysis and control for neural networks and interpretability. Our
codebase and models are open-sourced at
https://github.com/taufeeque9/codebook-features.
- Abstract(参考訳): ニューラルネットワークを理解することは、その隠れた状態の密集した連続的な性質のために難しい。
我々は、その連続的な機能をコードブック機能と呼ぶものに定量化することによって、スパース、離散、より解釈可能な隠れた状態を持つようにニューラルネットワークを訓練できるかどうかを探求する。
コードブック機能は、各層にベクトル量子化ボトルネックを持つニューラルネットワークを微調整し、大きなコードブックから選択した少数の離散ベクトルコードの合計に隠れた特徴を持つネットワークを生成することによって生成される。
驚くべきことに、ニューラルネットワークはこの極端なボトルネックの下で動作でき、パフォーマンスがわずかに低下するだけである。
このスパースで離散的なボトルネックは、ニューラルネットワークの振る舞いを制御する直感的な方法も提供する。まず、望ましい振る舞いがあるときにアクティベートするコードを見つけて、生成時に同じコードをアクティベートして、その振る舞いを誘発する。
いくつかの異なるデータセットでコードブックトランスフォーマーをトレーニングすることで、アプローチを検証する。
まず,ニューロンよりも隠れた状態を持つ有限状態機械データセットを探索する。
この設定では、異なるコードに状態を割り当てることで重ね合わせ問題を克服し、その状態のコードを活性化することで、ニューラルネットワークを別の状態のように振る舞わせることができることを見出します。
次に、2つの自然言語データセット上で最大410万のパラメータを持つTransformer言語モデルをトレーニングする。
これらのモデルのコードは多様で絡み合った概念(負の感情からその年の数ヶ月に及ぶ)を表しており、推論中に適切なコードを活性化することで、異なるトピックを生成するためにモデルを導くことができる。
全体として、コードブック機能は、ニューラルネットワークと解釈可能性の分析と制御の有望な単位であるようだ。
私たちのコードベースとモデルは、https://github.com/taufeeque9/codebook-featuresでオープンソース化されています。
関連論文リスト
- A Sparse Quantized Hopfield Network for Online-Continual Memory [0.0]
神経系は、ノイズの多いデータポイントのストリームが非独立で同一に分散された(非i.d.)方法で提示されるオンライン学習を行う。
一方、ディープネットワークは、通常非ローカルな学習アルゴリズムを使用し、オフライン、非ノイズ、すなわち設定で訓練される。
我々は、スパース量子ホップフィールドネットワーク(SQHN)と呼ばれる新しいニューラルネットワークにこの種のモデルを実装する。
論文 参考訳(メタデータ) (2023-07-27T17:46:17Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - How and what to learn:The modes of machine learning [7.085027463060304]
本稿では, 重み経路解析(WPA)と呼ばれる新しい手法を提案し, 多層ニューラルネットワークのメカニズムについて検討する。
WPAは、ニューラルネットワークが情報を「ホログラフィック」な方法で保存し、活用していることを示し、ネットワークはすべてのトレーニングサンプルをコヒーレントな構造にエンコードする。
隠れた層状ニューロンは学習過程の後半で異なるクラスに自己組織化することが判明した。
論文 参考訳(メタデータ) (2022-02-28T14:39:06Z) - Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。
その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-11T08:15:25Z) - Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。
我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文 参考訳(メタデータ) (2020-09-14T12:01:30Z) - Binary autoencoder with random binary weights [0.0]
層間情報を保存するために,隠蔽層の疎活性化が自然に起こることが示されている。
十分に大きな隠蔽層があれば、ニューロンのしきい値を変えるだけで任意の入力に対する再構成誤差をゼロにすることができる。
このモデルはフルーツフライの嗅覚システムに似ており、提示された理論的結果はより複雑なニューラルネットワークを理解する上で有用な洞察を与える。
論文 参考訳(メタデータ) (2020-04-30T12:13:19Z) - On Tractable Representations of Binary Neural Networks [23.50970665150779]
我々は、二項ニューラルネットワークの決定関数を、順序付き二項決定図(OBDD)や意味決定図(SDD)などの抽出可能な表現にコンパイルすることを検討する。
実験では,SDDとしてニューラルネットワークのコンパクトな表現を得ることが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-05T03:21:26Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。