論文の概要: N2G: A Scalable Approach for Quantifying Interpretable Neuron
Representations in Large Language Models
- arxiv url: http://arxiv.org/abs/2304.12918v1
- Date: Sat, 22 Apr 2023 19:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:06:38.001874
- Title: N2G: A Scalable Approach for Quantifying Interpretable Neuron
Representations in Large Language Models
- Title(参考訳): N2G:大規模言語モデルにおける解釈可能なニューロン表現の量子化のためのスケーラブルなアプローチ
- Authors: Alex Foote, Neel Nanda, Esben Kran, Ionnis Konstas, Fazl Barez
- Abstract要約: N2Gは、ニューロンとそのデータセットの例を取り、これらの例のニューロンの振る舞いを解釈可能なグラフに自動的に蒸留するツールである。
我々は、重要なトークンのみを提示するためにトランケーションとサリエンシ法を使用し、より多様なサンプルでデータセットの例を拡大し、ニューロンの振る舞いの程度をより正確に把握する。
これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the function of individual neurons within language models is
essential for mechanistic interpretability research. We propose $\textbf{Neuron
to Graph (N2G)}$, a tool which takes a neuron and its dataset examples, and
automatically distills the neuron's behaviour on those examples to an
interpretable graph. This presents a less labour intensive approach to
interpreting neurons than current manual methods, that will better scale these
methods to Large Language Models (LLMs). We use truncation and saliency methods
to only present the important tokens, and augment the dataset examples with
more diverse samples to better capture the extent of neuron behaviour. These
graphs can be visualised to aid manual interpretation by researchers, but can
also output token activations on text to compare to the neuron's ground truth
activations for automatic validation. N2G represents a step towards scalable
interpretability methods by allowing us to convert neurons in an LLM to
interpretable representations of measurable quality.
- Abstract(参考訳): 言語モデルにおける個々のニューロンの機能を理解することは、機械的解釈可能性の研究に不可欠である。
我々は、ニューロンとそのデータセットの例を取り出すツールである$\textbf{Neuron to Graph (N2G)}$を提案し、それらの例のニューロンの振る舞いを自動的に解釈可能なグラフに蒸留する。
これは、現在の手動メソッドよりもニューロンを解釈するための労働集約的なアプローチを示し、これらのメソッドを大規模言語モデル(llm)にスケールする。
我々は,重要なトークンのみを表示するために切断法と塩分法を使用し,より多様なサンプルを用いてデータセットの例を補足し,ニューロンの行動の程度をよりよく把握する。
これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。
N2Gは、LLM内のニューロンを可測品質の解釈可能な表現に変換することにより、スケーラブルな解釈可能性手法への一歩である。
関連論文リスト
- Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Towards Generating Informative Textual Description for Neurons in
Language Models [6.884227665279812]
本稿では,ニューロンにテキスト記述を結び付けるフレームワークを提案する。
特に,提案手法が75%精度@2,50%リコール@2を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-30T04:06:25Z) - Investigating the Encoding of Words in BERT's Neurons using Feature
Textualization [11.943486282441143]
本稿では,埋め込み語空間におけるニューロンの表現を生成する手法を提案する。
生成した表現は、個々のニューロンにおける符号化された知識についての洞察を与えることができる。
論文 参考訳(メタデータ) (2023-11-14T15:21:49Z) - WaLiN-GUI: a graphical and auditory tool for neuron-based encoding [73.88751967207419]
ニューロモルフィックコンピューティングはスパイクベースのエネルギー効率の高い通信に依存している。
本研究では, スパイクトレインへのサンプルベースデータの符号化に適した構成を同定するツールを開発した。
WaLiN-GUIはオープンソースとドキュメントが提供されている。
論文 参考訳(メタデータ) (2023-10-25T20:34:08Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Contrastive Brain Network Learning via Hierarchical Signed Graph Pooling
Model [64.29487107585665]
脳機能ネットワーク上のグラフ表現学習技術は、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を容易にする。
本稿では,脳機能ネットワークからグラフレベル表現を抽出する階層型グラフ表現学習モデルを提案する。
また、モデルの性能をさらに向上させるために、機能的脳ネットワークデータをコントラスト学習のために拡張する新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-07-14T20:03:52Z) - Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。
2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。
提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-12-23T12:17:47Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。