Fugu-MT 論文翻訳(概要): N2G: A Scalable Approach for Quantifying Interpretable Neuron Representations in Large Language Models

論文の概要: N2G: A Scalable Approach for Quantifying Interpretable Neuron Representations in Large Language Models

arxiv url: http://arxiv.org/abs/2304.12918v1
Date: Sat, 22 Apr 2023 19:06:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 20:06:38.001874
Title: N2G: A Scalable Approach for Quantifying Interpretable Neuron Representations in Large Language Models
Title（参考訳）: N2G:大規模言語モデルにおける解釈可能なニューロン表現の量子化のためのスケーラブルなアプローチ
Authors: Alex Foote, Neel Nanda, Esben Kran, Ionnis Konstas, Fazl Barez
Abstract要約: N2Gは、ニューロンとそのデータセットの例を取り、これらの例のニューロンの振る舞いを解釈可能なグラフに自動的に蒸留するツールである。我々は、重要なトークンのみを提示するためにトランケーションとサリエンシ法を使用し、より多様なサンプルでデータセットの例を拡大し、ニューロンの振る舞いの程度をより正確に把握する。これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the function of individual neurons within language models is essential for mechanistic interpretability research. We propose $\textbf{Neuron to Graph (N2G)}$, a tool which takes a neuron and its dataset examples, and automatically distills the neuron's behaviour on those examples to an interpretable graph. This presents a less labour intensive approach to interpreting neurons than current manual methods, that will better scale these methods to Large Language Models (LLMs). We use truncation and saliency methods to only present the important tokens, and augment the dataset examples with more diverse samples to better capture the extent of neuron behaviour. These graphs can be visualised to aid manual interpretation by researchers, but can also output token activations on text to compare to the neuron's ground truth activations for automatic validation. N2G represents a step towards scalable interpretability methods by allowing us to convert neurons in an LLM to interpretable representations of measurable quality.
Abstract（参考訳）: 言語モデルにおける個々のニューロンの機能を理解することは、機械的解釈可能性の研究に不可欠である。我々は、ニューロンとそのデータセットの例を取り出すツールである$\textbf{Neuron to Graph (N2G)}$を提案し、それらの例のニューロンの振る舞いを自動的に解釈可能なグラフに蒸留する。これは、現在の手動メソッドよりもニューロンを解釈するための労働集約的なアプローチを示し、これらのメソッドを大規模言語モデル(llm)にスケールする。我々は,重要なトークンのみを表示するために切断法と塩分法を使用し,より多様なサンプルを用いてデータセットの例を補足し,ニューロンの行動の程度をよりよく把握する。これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。 N2Gは、LLM内のニューロンを可測品質の解釈可能な表現に変換することにより、スケーラブルな解釈可能性手法への一歩である。

関連論文リスト

Revisiting Large Language Model Pruning using Neuron Semantic Attribution [63.62836612864512]
人気プルーニング手法を用いて,24のデータセットと4つのタスクの評価を行った。感情分類タスクでは,既存のプルーニング手法の大幅な性能低下がみられた。本稿では,各ニューロンと特定の意味論を関連づけることを学ぶニューロン意味属性を提案する。
論文参考訳（メタデータ） (2025-03-03T13:52:17Z)
Neuron Empirical Gradient: Discovering and Quantifying Neurons Global Linear Controllability [14.693407823048478]
本研究はまず,ニューロン活性化とモデル出力の数値的関係について検討する。ニューロン実験勾配(NEG)の正確かつ効率的な計算法であるNeurGradを導入する。
論文参考訳（メタデータ） (2024-12-24T00:01:24Z)
Tackling Polysemanticity with Neuron Embeddings [0.0]
本稿では,多意味性に対処するための表現であるニューロン埋め込みについて述べる。提案手法を GPT2-small に適用し,その結果を探索するためのUIを提供する。
論文参考訳（メタデータ） (2024-11-12T20:19:39Z)
Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-10-31T12:33:26Z)
Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文参考訳（メタデータ） (2024-06-06T17:59:52Z)
Towards Generating Informative Textual Description for Neurons in Language Models [6.884227665279812]
本稿では,ニューロンにテキスト記述を結び付けるフレームワークを提案する。特に,提案手法が75%精度@2,50%リコール@2を実現していることを示す。
論文参考訳（メタデータ） (2024-01-30T04:06:25Z)
Investigating the Encoding of Words in BERT's Neurons using Feature Textualization [11.943486282441143]
本稿では,埋め込み語空間におけるニューロンの表現を生成する手法を提案する。生成した表現は、個々のニューロンにおける符号化された知識についての洞察を与えることができる。
論文参考訳（メタデータ） (2023-11-14T15:21:49Z)
WaLiN-GUI: a graphical and auditory tool for neuron-based encoding [73.88751967207419]
ニューロモルフィックコンピューティングはスパイクベースのエネルギー効率の高い通信に依存している。本研究では, スパイクトレインへのサンプルベースデータの符号化に適した構成を同定するツールを開発した。 WaLiN-GUIはオープンソースとドキュメントが提供されている。
論文参考訳（メタデータ） (2023-10-25T20:34:08Z)
Identifying Interpretable Visual Features in Artificial and Biological Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文参考訳（メタデータ） (2023-10-17T17:41:28Z)
Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文参考訳（メタデータ） (2023-05-31T14:44:33Z)
Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。 2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文参考訳（メタデータ） (2021-12-23T12:17:47Z)
The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文参考訳（メタデータ） (2020-12-07T01:20:38Z)
Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文参考訳（メタデータ） (2020-06-24T20:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。