論文の概要: Observable Propagation: Uncovering Feature Vectors in Transformers
- arxiv url: http://arxiv.org/abs/2312.16291v2
- Date: Tue, 4 Jun 2024 01:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:37:33.654814
- Title: Observable Propagation: Uncovering Feature Vectors in Transformers
- Title(参考訳): Observable Propagation: Transformerの機能ベクトルの発見
- Authors: Jacob Dunefsky, Arman Cohan,
- Abstract要約: 与えられたタスクを計算する際にトランスフォーマー言語モデルで使用される線形特徴を見つけるために「観測可能な伝搬」(略してObProp)を導入する。
我々のパラダイムは、与えられたタスクに対応する線形汎関数である「観測可能」の概念に焦点を当てている。
我々はObPropを使って、ジェンダー付き職業バイアス、政党予測、プログラミング言語検出など、様々なタスクの質的な調査を行う。
- 参考スコア(独自算出の注目度): 21.2431937128876
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A key goal of current mechanistic interpretability research in NLP is to find linear features (also called "feature vectors") for transformers: directions in activation space corresponding to concepts that are used by a given model in its computation. Present state-of-the-art methods for finding linear features require large amounts of labelled data -- both laborious to acquire and computationally expensive to utilize. In this work, we introduce a novel method, called "observable propagation" (in short: ObProp), for finding linear features used by transformer language models in computing a given task -- using almost no data. Our paradigm centers on the concept of "observables", linear functionals corresponding to given tasks. We then introduce a mathematical theory for the analysis of feature vectors, including a similarity metric between feature vectors called the coupling coefficient which estimates the degree to which one feature's output correlates with another's. We use ObProp to perform extensive qualitative investigations into several tasks, including gendered occupational bias, political party prediction, and programming language detection. Our results suggest that ObProp surpasses traditional approaches for finding feature vectors in the low-data regime, and that ObProp can be used to better understand the mechanisms responsible for bias in large language models.
- Abstract(参考訳): NLPにおける現在の機械論的解釈可能性の研究の鍵となるゴールは、変圧器の線形特徴(「機能ベクトル」とも呼ばれる)を見つけることである。
線形特徴を見つけるための現在の最先端の手法は、大量のラベル付きデータ -- 取得に苦労すると同時に、利用するのに計算コストがかかる — を必要とする。この記事では、ほとんど何もデータを使って、変換言語モデルが与えられたタスクを計算する際に使用する線形特徴を見つけるために、"observable propagation"(略してObProp)と呼ばれる新しい手法を導入する。
我々のパラダイムは、与えられたタスクに対応する線形汎関数である「観測可能」の概念に焦点を当てている。
次に、ある特徴ベクトルの出力が他の特徴ベクトルと相関する程度を推定する結合係数と呼ばれる特徴ベクトル間の類似度計量を含む特徴ベクトルの解析のための数学的理論を導入する。
我々はObPropを使って、ジェンダー付き職業バイアス、政党予測、プログラミング言語検出など、様々なタスクの質的な調査を行う。
以上の結果から,ObPropは低データ構造における特徴ベクトル探索の従来の手法を超越し,大規模言語モデルにおけるバイアスの原因となるメカニズムをよりよく理解するために,ObPropが有効であることが示唆された。
関連論文リスト
- Influence functions and regularity tangents for efficient active learning [0.0]
本稿では,データに対する好奇心を持つ回帰モデルを提供するための効率的な方法について述べる。
機械学習の分野では、好奇心を表現するためのフレームワークをアクティブラーニング(Active Learning)と呼ぶ。
論文 参考訳(メタデータ) (2024-11-22T18:14:26Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Learning Active Subspaces and Discovering Important Features with Gaussian Radial Basis Functions Neural Networks [0.0]
モデルの訓練が完了すると抽出できる精度行列のスペクトルに含まれる貴重な情報を示す。
回帰,分類,特徴選択タスクの数値実験を行った。
その結果,提案モデルが競合モデルに比べて魅力的な予測性能が得られるだけでなく,予測性能も向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-11T09:54:30Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Scalable variable selection for two-view learning tasks with projection
operators [0.0]
本稿では,2視点設定やベクトル値による教師付き学習問題に対して,新しい変数選択法を提案する。
当社のフレームワークは,データサンプルの数が数百万にものぼる,非常に大規模な選択タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-04T08:22:05Z) - Inexact iterative numerical linear algebra for neural network-based
spectral estimation and rare-event prediction [0.0]
遷移作用素の固有関数を導くことは視覚化に有用である。
我々はこれらの固有関数を計算するための不正確な反復線形代数法を開発する。
論文 参考訳(メタデータ) (2023-03-22T13:07:03Z) - EqMotion: Equivariant Multi-agent Motion Prediction with Invariant
Interaction Reasoning [83.11657818251447]
不変相互作用推論を用いた効率的な同変運動予測モデルであるEqMotionを提案する。
提案モデルに対して,粒子動力学,分子動力学,人体骨格運動予測,歩行者軌道予測の4つの異なるシナリオで実験を行った。
提案手法は4つのタスクすべてに対して最先端の予測性能を実現し,24.0/30.1/8.6/9.2%改善した。
論文 参考訳(メタデータ) (2023-03-20T05:23:46Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Functional Nonlinear Learning [0.0]
低次元特徴空間における多変量関数データを表現する機能非線形学習法(FunNoL)を提案する。
本研究では,FunNoLがデータ間隔によらず,良好な曲線分類と再構成を提供することを示す。
論文 参考訳(メタデータ) (2022-06-22T23:47:45Z) - A Differential Geometry Perspective on Orthogonal Recurrent Models [56.09491978954866]
我々は微分幾何学からのツールと洞察を用いて、直交rnnの新しい視点を提供する。
直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。
この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。
論文 参考訳(メタデータ) (2021-02-18T19:39:22Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。