論文の概要: Observable Propagation: A Data-Efficient Approach to Uncover Feature
Vectors in Transformers
- arxiv url: http://arxiv.org/abs/2312.16291v1
- Date: Tue, 26 Dec 2023 19:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:00:43.707599
- Title: Observable Propagation: A Data-Efficient Approach to Uncover Feature
Vectors in Transformers
- Title(参考訳): 観測可能な伝播: 変換器の特徴ベクトルを明らかにするためのデータ効率の良いアプローチ
- Authors: Jacob Dunefsky and Arman Cohan
- Abstract要約: 与えられたタスクを計算する際にトランスフォーマー言語モデルで使用される線形特徴を見つけるために"obsProp"(略してobsProp)を導入する。
我々はObsPropを使って、ジェンダー付き職業バイアス、政党予測、プログラミング言語検出など、様々なタスクの質的な調査を行う。
- 参考スコア(独自算出の注目度): 25.096019252017296
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A key goal of current mechanistic interpretability research in NLP is to find
linear features (also called "feature vectors") for transformers: directions in
activation space corresponding to concepts that are used by a given model in
its computation. Present state-of-the-art methods for finding linear features
require large amounts of labelled data -- both laborious to acquire and
computationally expensive to utilize. In this work, we introduce a novel
method, called "observable propagation" (in short: ObsProp), for finding linear
features used by transformer language models in computing a given task -- using
almost no data. Our paradigm centers on the concept of observables, linear
functionals corresponding to given tasks. We then introduce a mathematical
theory for the analysis of feature vectors: we provide theoretical motivation
for why LayerNorm nonlinearities do not affect the direction of feature
vectors; we also introduce a similarity metric between feature vectors called
the coupling coefficient which estimates the degree to which one feature's
output correlates with another's. We use ObsProp to perform extensive
qualitative investigations into several tasks, including gendered occupational
bias, political party prediction, and programming language detection. Our
results suggest that ObsProp surpasses traditional approaches for finding
feature vectors in the low-data regime, and that ObsProp can be used to better
understand the mechanisms responsible for bias in large language models. Code
for experiments can be found at github.com/jacobdunefsky/ObservablePropagation.
- Abstract(参考訳): NLPにおける現在の機械論的解釈可能性の研究の鍵となるゴールは、変圧器の線形特徴(「機能ベクトル」とも呼ばれる)を見つけることである。
現在、線形特徴量を求めるには、大量のラベル付きデータが必要であり、取得に手間がかかり、計算コストがかかる。本研究では、与えられたタスクを演算する際にトランスフォーマー言語モデルが使用する線形特徴量を見つけるための新しい手法であるobservable propagation(obsprop)を提案する。
我々のパラダイムは、与えられたタスクに対応する可観測関数、線形汎関数の概念に焦点を当てている。
次に、特徴ベクトルの解析のための数学的理論を紹介し、なぜLayerNormの非線形性が特徴ベクトルの方向に影響しないのかを理論的動機付け、また、ある特徴ベクトルの出力が他の特徴ベクトルと相関する程度を推定する結合係数と呼ばれる特徴ベクトル間の類似度計量を導入する。
我々はObsPropを使って、ジェンダー付き職業バイアス、政党予測、プログラミング言語検出など、様々なタスクの質的な調査を行う。
以上の結果から,obspropは低データ領域で特徴ベクトルを求める従来のアプローチを上回っており,大規模言語モデルにおいてバイアスの原因となるメカニズムをより理解するために,obspropが利用できることが示唆された。
実験のコードはgithub.com/jacobdunefsky/ObservablePropagationで見ることができる。
関連論文リスト
- NPEFF: Non-Negative Per-Example Fisher Factorization [52.44573961263344]
エンド・ツー・エンドの微分可能モデルに容易に適用可能な,NPEFFと呼ばれる新しい解釈可能性手法を提案する。
我々はNPEFFが言語モデルと視覚モデルの実験を通して解釈可能なチューニングを持つことを実証した。
論文 参考訳(メタデータ) (2023-10-07T02:02:45Z) - Learning Active Subspaces and Discovering Important Features with
Gaussian Radial Basis Functions Neural Networks [1.7403133838762443]
モデルの訓練が完了すると抽出できる精度行列のスペクトルに含まれる貴重な情報を示す。
同時に固有ベクトルは入力と潜伏変数の絶対的な変動の観点から関係を強調する。
本結果は,提案モデルが競合相手に対して魅力的な予測性能を与えるだけでなく,有意義かつ解釈可能な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-11T09:54:30Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Inexact iterative numerical linear algebra for neural network-based
spectral estimation and rare-event prediction [0.0]
遷移作用素の固有関数を導くことは視覚化に有用である。
我々はこれらの固有関数を計算するための不正確な反復線形代数法を開発する。
論文 参考訳(メタデータ) (2023-03-22T13:07:03Z) - EqMotion: Equivariant Multi-agent Motion Prediction with Invariant
Interaction Reasoning [83.11657818251447]
不変相互作用推論を用いた効率的な同変運動予測モデルであるEqMotionを提案する。
提案モデルに対して,粒子動力学,分子動力学,人体骨格運動予測,歩行者軌道予測の4つの異なるシナリオで実験を行った。
提案手法は4つのタスクすべてに対して最先端の予測性能を実現し,24.0/30.1/8.6/9.2%改善した。
論文 参考訳(メタデータ) (2023-03-20T05:23:46Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Neural Networks for Scalar Input and Functional Output [0.0]
フィードフォワードニューラルネットワーク(NN)はスカラー入力を用いて関数応答を予測するように設計されている。
目的関数を用いてNNの出力を変更し、ネットワークトレーニングのための異なる目的関数を導入する。
複数のシナリオにおいて従来の関数・オン・スカラー回帰モデルよりも優れる。
論文 参考訳(メタデータ) (2022-08-10T16:04:58Z) - Functional Nonlinear Learning [0.0]
低次元特徴空間における多変量関数データを表現する機能非線形学習法(FunNoL)を提案する。
本研究では,FunNoLがデータ間隔によらず,良好な曲線分類と再構成を提供することを示す。
論文 参考訳(メタデータ) (2022-06-22T23:47:45Z) - Exploring Local Explanations of Nonlinear Models Using Animated Linear
Projections [5.524804393257921]
eXplainable AI(XAI)を使用して、モデルが予測器を使用して予測に到達する方法を示す。
予測器間の相互作用が変数重要度推定にどのように影響するかを理解するために,LVAを線形射影に変換することができる。
このアプローチは、分類学的(ペンギン種、チョコレートタイプ)と定量的(靴と足の給与、住宅価格)の応答モデルから例を示します。
論文 参考訳(メタデータ) (2022-05-11T09:11:02Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - A Differential Geometry Perspective on Orthogonal Recurrent Models [56.09491978954866]
我々は微分幾何学からのツールと洞察を用いて、直交rnnの新しい視点を提供する。
直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。
この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。
論文 参考訳(メタデータ) (2021-02-18T19:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。