論文の概要: Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models
- arxiv url: http://arxiv.org/abs/2410.06981v1
- Date: Wed, 9 Oct 2024 15:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:07:19.502698
- Title: Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models
- Title(参考訳): スパースオートエンコーダが大規模言語モデル全体で普遍的な特徴空間を発見
- Authors: Michael Lan, Philip Torr, Austin Meek, Ashkan Khakzar, David Krueger, Fazl Barez,
- Abstract要約: 特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。
辞書学習(Dictionary Learning)と呼ばれる手法を用いて、LSMの活性化を個々の特徴に対応するニューロンにまたがる解釈可能な空間に変換する。
実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
- 参考スコア(独自算出の注目度): 14.594698598522797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate feature universality in large language models (LLMs), a research field that aims to understand how different models similarly represent concepts in the latent spaces of their intermediate layers. Demonstrating feature universality allows discoveries about latent representations to generalize across several models. However, comparing features across LLMs is challenging due to polysemanticity, in which individual neurons often correspond to multiple features rather than distinct ones. This makes it difficult to disentangle and match features across different models. To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we apply representational space similarity metrics like Singular Value Canonical Correlation Analysis to analyze these SAE features across different LLMs. Our experiments reveal significant similarities in SAE feature spaces across various LLMs, providing new evidence for feature universality.
- Abstract(参考訳): 大規模言語モデル(LLM)における特徴普遍性(特徴普遍性)について検討し,異なるモデルが中間層の潜在空間における概念をどのように表すかを理解することを目的とした研究分野である。
特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。
しかし、LLMを横断する特徴を比較することは、個々のニューロンが異なる特徴よりも複数の特徴に対応することの多い多意味性のために困難である。
これにより、さまざまなモデルにまたがる機能を切り離し、一致させることが困難になる。
この問題に対処するために, スパースオートエンコーダ(SAE)を用いて, 個々の特徴に対応するニューロンにまたがるより解釈可能な空間にLSMのアクティベーションを変換する辞書学習法を用いる。
モデル間の特徴ニューロンをアクティベーション相関によりマッチングした後、Singular Value Canonical correlation Analysisのような表現空間類似度メトリクスを適用し、これらのSAE特徴を異なるLLMにわたって解析する。
実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
関連論文リスト
- Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。
以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。
本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文 参考訳(メタデータ) (2023-12-05T12:48:04Z) - Finding Neurons in a Haystack: Case Studies with Sparse Probing [2.278231643598956]
大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。
入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。
k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
論文 参考訳(メタデータ) (2023-05-02T17:13:55Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Sparse Interventions in Language Models with Differentiable Masking [37.220380160016624]
本稿では,言語現象の原因となるニューロンの小さなサブセットをニューラルLM内で発見する手法を提案する。
実験により、これらの現象はニューロンの小さなサブセットを介して媒介されていることが確認された。
論文 参考訳(メタデータ) (2021-12-13T17:49:16Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Learning Mixtures of Random Utility Models with Features from Incomplete
Preferences [34.50516583809234]
それぞれの代替品が、おそらくエージェント間で異なる、機能のベクターを持つような、機能とそれらの混合を伴うRUMについて検討する。
我々はRUMと特徴の混合を不完全な嗜好を生成し、その識別性を特徴づけるモデルに拡張する。
本実験は,PL上でのMLEの有効性を示すものであり,統計効率と計算効率のトレードオフがある。
論文 参考訳(メタデータ) (2020-06-06T13:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。