論文の概要: Not All Language Model Features Are Linear
- arxiv url: http://arxiv.org/abs/2405.14860v2
- Date: Tue, 08 Oct 2024 14:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:19.625570
- Title: Not All Language Model Features Are Linear
- Title(参考訳): すべての言語モデル機能が線形であるとは限らない
- Authors: Joshua Engels, Eric J. Michaud, Isaac Liao, Wes Gurnee, Max Tegmark,
- Abstract要約: 独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴の厳密な定義を開発する。
スパースオートエンコーダを用いて, GPT-2 と Mistral 7B の多次元特徴を自動的に検出する。
我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。
- 参考スコア(独自算出の注目度): 8.577217344304072
- License:
- Abstract: Recent work has proposed that language models perform computation by manipulating one-dimensional representations of concepts ("features") in activation space. In contrast, we explore whether some language model representations may be inherently multi-dimensional. We begin by developing a rigorous definition of irreducible multi-dimensional features based on whether they can be decomposed into either independent or non-co-occurring lower-dimensional features. Motivated by these definitions, we design a scalable method that uses sparse autoencoders to automatically find multi-dimensional features in GPT-2 and Mistral 7B. These auto-discovered features include strikingly interpretable examples, e.g. circular features representing days of the week and months of the year. We identify tasks where these exact circles are used to solve computational problems involving modular arithmetic in days of the week and months of the year. Next, we provide evidence that these circular features are indeed the fundamental unit of computation in these tasks with intervention experiments on Mistral 7B and Llama 3 8B. Finally, we find further circular representations by breaking down the hidden states for these tasks into interpretable components, and we examine the continuity of the days of the week feature in Mistral 7B.
- Abstract(参考訳): 近年の研究では、言語モデルがアクティベーション空間における概念の1次元表現(「機能」)を操作して計算を行うことが提案されている。
対照的に、いくつかの言語モデル表現が本質的に多次元であるかどうかを考察する。
まず、独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴を厳密に定義することから始める。
これらの定義により,GPT-2とMistral 7Bの多次元特徴を自動的に見つけるためにスパースオートエンコーダを用いたスケーラブルな手法を設計する。
これらの自動発見機能には、著しく解釈可能な例、例えば1週間と数ヶ月の日を表す円形機能などが含まれる。
我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。
次に、これらの円形特徴が、Mistral 7BとLlama 3 8Bの介入実験によるこれらのタスクにおける計算の基本単位であることを示す。
最後に、これらのタスクの隠された状態を解釈可能な構成要素に分解し、さらに円状の表現を見つけ、Mistral 7Bにおける週の特徴の連続性を検証した。
関連論文リスト
- Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Latent Functional Maps: a spectral framework for representation alignment [34.20582953800544]
表現学習コミュニティに多目的フレームワークを導入し、(i)異なる空間を解釈可能な方法で比較し、その内在的類似性を測定すること、(ii)教師なしと弱教師付きの両方で対応性を見出すこと、(iii)異なる空間間の表現を効果的に伝達すること。
我々は, 縫合作業から検索作業, および複数のモダリティに至るまで, 様々なアプリケーションにおいて, フレームワークを検証し, 表現アライメントのためのスウィスアームナイフとして機能することを示す。
論文 参考訳(メタデータ) (2024-06-20T10:43:28Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。
本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。
このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文 参考訳(メタデータ) (2024-03-26T19:26:53Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Why you should learn functional basis [28.399668932184422]
広く用いられる選択は、スペクトル埋め込みを通じて3Dオブジェクトを符号化することであり、微分作用素(典型的にはラプラシアン)の固有函数の切り離された部分集合によって、その点で仮定される値に関連付ける。
異なるアプリケーション向けの新しい、好ましい埋め込みを定義するいくつかの試みは、この10年でその光を見てきた。
近年,ラプラシア固有関数の学習代用として,新たな傾向がみられた。
同時に、多くの研究課題は未解決のままであり、新しい基底はLBO固有関数よりも優れているか、それらとどのように関連しているのか?
論文 参考訳(メタデータ) (2021-12-14T10:44:10Z) - Spatiotemporal Deformable Models for Long-Term Complex Activity
Detection [23.880673582575856]
自動車や手術ロボットなどの自律システムでは、長期的な複雑な活動認識が不可欠です。
現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアクションの組み合わせを単にローカライズするように設計されている。
本フレームワークは, (i) 動作検出, (ii) 変形可能な部品形状のモデル化, (iii) 空間的機構の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2021-04-16T16:05:34Z) - Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。
我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文 参考訳(メタデータ) (2020-11-17T12:39:44Z) - UNIPoint: Universally Approximating Point Processes Intensities [125.08205865536577]
学習可能な関数のクラスが任意の有効な強度関数を普遍的に近似できることを示す。
ニューラルポイントプロセスモデルであるUNIPointを実装し,各イベントの基底関数の和をパラメータ化するために,リカレントニューラルネットワークを用いた。
論文 参考訳(メタデータ) (2020-07-28T09:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。