論文の概要: Neuron to Graph: Interpreting Language Model Neurons at Scale
- arxiv url: http://arxiv.org/abs/2305.19911v1
- Date: Wed, 31 May 2023 14:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:03:56.366106
- Title: Neuron to Graph: Interpreting Language Model Neurons at Scale
- Title(参考訳): ニューロンからグラフへ: 言語モデルニューロンを大規模に解釈する
- Authors: Alex Foote, Neel Nanda, Esben Kran, Ioannis Konstas, Shay Cohen, Fazl
Barez
- Abstract要約: 本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
- 参考スコア(独自算出の注目度): 8.32093320910416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in Large Language Models (LLMs) have led to remarkable capabilities,
yet their inner mechanisms remain largely unknown. To understand these models,
we need to unravel the functions of individual neurons and their contribution
to the network. This paper introduces a novel automated approach designed to
scale interpretability techniques across a vast array of neurons within LLMs,
to make them more interpretable and ultimately safe. Conventional methods
require examination of examples with strong neuron activation and manual
identification of patterns to decipher the concepts a neuron responds to. We
propose Neuron to Graph (N2G), an innovative tool that automatically extracts a
neuron's behaviour from the dataset it was trained on and translates it into an
interpretable graph. N2G uses truncation and saliency methods to emphasise only
the most pertinent tokens to a neuron while enriching dataset examples with
diverse samples to better encompass the full spectrum of neuron behaviour.
These graphs can be visualised to aid researchers' manual interpretation, and
can generate token activations on text for automatic validation by comparison
with the neuron's ground truth activations, which we use to show that the model
is better at predicting neuron activation than two baseline methods. We also
demonstrate how the generated graph representations can be flexibly used to
facilitate further automation of interpretability research, by searching for
neurons with particular properties, or programmatically comparing neurons to
each other to identify similar neurons. Our method easily scales to build graph
representations for all neurons in a 6-layer Transformer model using a single
Tesla T4 GPU, allowing for wide usability. We release the code and instructions
for use at https://github.com/alexjfoote/Neuron2Graph.
- Abstract(参考訳): 大規模言語モデル(llm)の進歩は目覚ましい能力をもたらしたが、その内部メカニズムはほとんど分かっていない。
これらのモデルを理解するためには、個々のニューロンの機能とそのネットワークへの寄与を解明する必要がある。
本稿では、llm内の多数のニューロンにまたがる解釈可能性技術を拡張し、より解釈可能かつ究極的に安全なものにするための新しい自動アプローチを提案する。
従来の手法では、ニューロンが反応する概念を解読するために、強力なニューロン活性化の例とパターンの手動識別が必要となる。
学習したデータセットから自動的にニューロンの行動を抽出し、解釈可能なグラフに変換する革新的なツールであるneuron to graph (n2g)を提案する。
N2Gはトランケーション法とサリエンシ法を用いて、ニューロンに最も関連するトークンだけを強調する一方で、多様なサンプルでデータセットの例を豊かにし、ニューロンの行動の全スペクトルをよりよく包含する。
これらのグラフは、研究者の手動による解釈を支援するために可視化することができ、また、2つのベースライン法よりもニューロンの活性化を予測するのに優れていることを示すために、ニューロンの基底的真実活性化と比較することにより、テキスト上でトークンアクティベーションを自動検証するために生成することができる。
また, 生成したグラフ表現を柔軟に利用することにより, 解釈可能性研究のさらなる自動化, 特定の特性を持つニューロンの探索, あるいは類似したニューロンの同定に相互にプログラム的に比較する方法を示す。
提案手法は,Tesla T4 GPUを用いた6層トランスフォーマーモデルにおいて,全ニューロンのグラフ表現を容易に構築し,広いユーザビリティを実現する。
私たちはhttps://github.com/alexjfoote/Neuron2Graphで使用するコードと命令をリリースします。
関連論文リスト
- Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks [25.30801109401654]
人間の脳はタスクベースのニューロンのユーザなので、人工ネットワークの設計はタスクベースのアーキテクチャ設計からタスクベースのニューロン設計に移行できるだろうか?
本稿では,タスクベースニューロンのプロトタイピングのための2段階のフレームワークを提案する。
実験により、提案されたタスクベースのニューロン設計は実現可能であるだけでなく、他の最先端モデルと競合する性能を提供することが示された。
論文 参考訳(メタデータ) (2024-05-03T09:12:46Z) - Investigating the Encoding of Words in BERT's Neurons using Feature
Textualization [11.943486282441143]
本稿では,埋め込み語空間におけるニューロンの表現を生成する手法を提案する。
生成した表現は、個々のニューロンにおける符号化された知識についての洞察を与えることができる。
論文 参考訳(メタデータ) (2023-11-14T15:21:49Z) - WaLiN-GUI: a graphical and auditory tool for neuron-based encoding [73.88751967207419]
ニューロモルフィックコンピューティングはスパイクベースのエネルギー効率の高い通信に依存している。
本研究では, スパイクトレインへのサンプルベースデータの符号化に適した構成を同定するツールを開発した。
WaLiN-GUIはオープンソースとドキュメントが提供されている。
論文 参考訳(メタデータ) (2023-10-25T20:34:08Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - N2G: A Scalable Approach for Quantifying Interpretable Neuron
Representations in Large Language Models [0.0]
N2Gは、ニューロンとそのデータセットの例を取り、これらの例のニューロンの振る舞いを解釈可能なグラフに自動的に蒸留するツールである。
我々は、重要なトークンのみを提示するためにトランケーションとサリエンシ法を使用し、より多様なサンプルでデータセットの例を拡大し、ニューロンの振る舞いの程度をより正確に把握する。
これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。
論文 参考訳(メタデータ) (2023-04-22T19:06:13Z) - Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。
2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。
提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-12-23T12:17:47Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。