論文の概要: Not All Language Model Features Are Linear
- arxiv url: http://arxiv.org/abs/2405.14860v2
- Date: Tue, 08 Oct 2024 14:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:19.625570
- Title: Not All Language Model Features Are Linear
- Title(参考訳): すべての言語モデル機能が線形であるとは限らない
- Authors: Joshua Engels, Eric J. Michaud, Isaac Liao, Wes Gurnee, Max Tegmark,
- Abstract要約: 独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴の厳密な定義を開発する。
スパースオートエンコーダを用いて, GPT-2 と Mistral 7B の多次元特徴を自動的に検出する。
我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。
- 参考スコア(独自算出の注目度): 8.577217344304072
- License:
- Abstract: Recent work has proposed that language models perform computation by manipulating one-dimensional representations of concepts ("features") in activation space. In contrast, we explore whether some language model representations may be inherently multi-dimensional. We begin by developing a rigorous definition of irreducible multi-dimensional features based on whether they can be decomposed into either independent or non-co-occurring lower-dimensional features. Motivated by these definitions, we design a scalable method that uses sparse autoencoders to automatically find multi-dimensional features in GPT-2 and Mistral 7B. These auto-discovered features include strikingly interpretable examples, e.g. circular features representing days of the week and months of the year. We identify tasks where these exact circles are used to solve computational problems involving modular arithmetic in days of the week and months of the year. Next, we provide evidence that these circular features are indeed the fundamental unit of computation in these tasks with intervention experiments on Mistral 7B and Llama 3 8B. Finally, we find further circular representations by breaking down the hidden states for these tasks into interpretable components, and we examine the continuity of the days of the week feature in Mistral 7B.
- Abstract(参考訳): 近年の研究では、言語モデルがアクティベーション空間における概念の1次元表現(「機能」)を操作して計算を行うことが提案されている。
対照的に、いくつかの言語モデル表現が本質的に多次元であるかどうかを考察する。
まず、独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴を厳密に定義することから始める。
これらの定義により,GPT-2とMistral 7Bの多次元特徴を自動的に見つけるためにスパースオートエンコーダを用いたスケーラブルな手法を設計する。
これらの自動発見機能には、著しく解釈可能な例、例えば1週間と数ヶ月の日を表す円形機能などが含まれる。
我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。
次に、これらの円形特徴が、Mistral 7BとLlama 3 8Bの介入実験によるこれらのタスクにおける計算の基本単位であることを示す。
最後に、これらのタスクの隠された状態を解釈可能な構成要素に分解し、さらに円状の表現を見つけ、Mistral 7Bにおける週の特徴の連続性を検証した。
関連論文リスト
- Latent Functional Maps [34.20582953800544]
機能領域でこの問題に対処し,複雑性を軽減するとともに,下流タスクの解釈可能性や性能を向上させることができることを示す。
表現学習コミュニティに多目的フレームワークを導入し、(i)異なる空間を解釈可能な方法で比較し、その内在的類似性を測定すること、(ii)教師なしと弱教師付きの両方で対応性を見出すこと、(iii)異なる空間間の表現を効果的に伝達すること。
論文 参考訳(メタデータ) (2024-06-20T10:43:28Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Object-centric architectures enable efficient causal representation
learning [51.6196391784561]
観測対象が複数の物体である場合, 生成関数はもはや注入的ではなく, 実際に乱れは生じないことを示す。
スパース摂動からの弱い監督を利用して各オブジェクトのプロパティを乱すオブジェクト中心アーキテクチャを開発する。
このアプローチはユークリッド空間にエンコードする同等のアプローチよりもはるかに少ない摂動を必要とするという意味で、よりデータ効率が高い。
論文 参考訳(メタデータ) (2023-10-29T16:01:03Z) - Interpretable Linear Dimensionality Reduction based on Bias-Variance
Analysis [45.3190496371625]
本稿では,特徴の解釈可能性を維持するための基本次元削減手法を提案する。
このように、全ての特徴を考慮し、次元性を減らし、解釈可能性を保持する。
論文 参考訳(メタデータ) (2023-03-26T14:30:38Z) - Disentangled (Un)Controllable Features [5.371337604556312]
本稿では,遅延特徴を制御可能かつ制御不能なパーティションに分解できる新しいアプローチを提案する。
本研究では、手続き的に生成された迷路環境の分布において、独立制御可能な潜伏分割における計画アルゴリズムの解釈が可能であることを示す。
論文 参考訳(メタデータ) (2022-10-31T18:37:22Z) - NOMAD: Nonlinear Manifold Decoders for Operator Learning [17.812064311297117]
関数空間における教師付き学習は、機械学習研究の新たな領域である。
関数空間における非線形部分多様体の有限次元表現を学習できる非線形デコーダマップを備えた新しい演算子学習フレームワークであるNOMADについて述べる。
論文 参考訳(メタデータ) (2022-06-07T19:52:44Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。
我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文 参考訳(メタデータ) (2020-11-17T12:39:44Z) - UNIPoint: Universally Approximating Point Processes Intensities [125.08205865536577]
学習可能な関数のクラスが任意の有効な強度関数を普遍的に近似できることを示す。
ニューラルポイントプロセスモデルであるUNIPointを実装し,各イベントの基底関数の和をパラメータ化するために,リカレントニューラルネットワークを用いた。
論文 参考訳(メタデータ) (2020-07-28T09:31:56Z) - Invariant Feature Coding using Tensor Product Representation [75.62232699377877]
我々は,群不変特徴ベクトルが線形分類器を学習する際に十分な識別情報を含んでいることを証明した。
主成分分析やk平均クラスタリングにおいて,グループアクションを明示的に考慮する新たな特徴モデルを提案する。
論文 参考訳(メタデータ) (2019-06-05T07:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。