論文の概要: Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models
- arxiv url: http://arxiv.org/abs/2410.06981v2
- Date: Fri, 31 Jan 2025 15:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 22:46:12.745852
- Title: Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models
- Title(参考訳): スパースオートエンコーダが大規模言語モデル全体で普遍的な特徴空間を発見
- Authors: Michael Lan, Philip Torr, Austin Meek, Ashkan Khakzar, David Krueger, Fazl Barez,
- Abstract要約: 特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。
辞書学習(Dictionary Learning)と呼ばれる手法を用いて、LSMの活性化を個々の特徴に対応するニューロンにまたがるより解釈可能な空間に変換する。
実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
- 参考スコア(独自算出の注目度): 14.594698598522797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate feature universality in large language models (LLMs), a research field that aims to understand how different models similarly represent concepts in the latent spaces of their intermediate layers. Demonstrating feature universality allows discoveries about latent representations to generalize across several models. However, comparing features across LLMs is challenging due to polysemanticity, in which individual neurons often correspond to multiple features rather than distinct ones, making it difficult to disentangle and match features across different models. To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we apply representational space similarity metrics on SAE feature spaces across different LLMs. Our experiments reveal significant similarities in SAE feature spaces across various LLMs, providing new evidence for feature universality.
- Abstract(参考訳): 大規模言語モデル(LLM)における特徴普遍性(特徴普遍性)について検討し,異なるモデルが中間層の潜在空間における概念をどのように表すかを理解することを目的とした研究分野である。
特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。
しかし、LLMを横断する特徴を比較することは、個々のニューロンが異なる特徴よりも複数の特徴に対応することの多い多意味性のため困難であり、異なるモデルにまたがって特徴を歪めたり一致させたりすることは困難である。
この問題に対処するために, スパースオートエンコーダ(SAE)を用いて, 個々の特徴に対応するニューロンにまたがるより解釈可能な空間にLSMのアクティベーションを変換する辞書学習法を用いる。
アクティベーション相関によるモデル間の特徴ニューロンのマッチングの後、異なるLLM間のSAE特徴空間に表現空間類似度指標を適用した。
実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
関連論文リスト
- Semantic Convergence: Investigating Shared Representations Across Scaled LLMs [4.172347145536457]
大きな言語モデルは、サイズの違いにもかかわらず、世界全体を広く類似した解釈可能な特徴に彫り込み、クロスモデル解釈の基盤として普遍性を補強する。
予備実験では、単一トークンからマルチトークン部分空間への解析を拡張し、意味論的に類似した部分空間が言語モデルと同様に相互作用することを示す。
論文 参考訳(メタデータ) (2025-07-21T07:09:32Z) - Transferring Features Across Language Models With Model Stitching [61.24716360332365]
言語モデルの残差ストリーム間のアフィンマッピングは、モデル間で表現された特徴を転送するための安価な方法であることを示す。
小型モデルと大規模モデルは同様の表現空間を学習し、より小さなモデルでSAEなどの高価なコンポーネントをトレーニングし、FLOPの貯蓄でより大きなモデルに転送する動機付けをする。
論文 参考訳(メタデータ) (2025-06-07T01:03:25Z) - Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models [6.390475802910619]
同一データ上で訓練されたモデル間で学習された表現は、基本特徴の近辺集合の線形結合として表現できることを示す。
これらの基本機能は、学習タスク自体を基盤とし、スケールに関係なく、モデル間で一貫性を維持します。
論文 参考訳(メタデータ) (2025-05-31T17:45:18Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Enhancing Interpretability of Sparse Latent Representations with Class Information [1.2835555561822447]
変分オートエンコーダ(VAE)は潜在表現を学習するための強力な生成モデルである。
本稿では, 潜在空間の活性次元が同一クラス内のサンプル間で整合であることを保証することによって, 潜在空間の解釈可能性を高める新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-20T15:10:01Z) - Semantic Wave Functions: Exploring Meaning in Large Language Models Through Quantum Formalism [0.0]
大規模言語モデル(LLM)は、高次元ベクトル埋め込みにおける意味関係を符号化する。
本稿では,LLM埋め込み空間と量子力学の類似性について検討する。
この量子派生表現を形式化する「意味的波動関数」を導入する。
論文 参考訳(メタデータ) (2025-03-09T08:23:31Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - Understanding the Role of Equivariance in Self-supervised Learning [51.56331245499712]
同変自己教師学習(E-SSL)は、拡張に注意する機能を学ぶ。
我々は、同変タスクと分類タスクの相乗効果を生成するE-SSLにおける重要な説明アウト効果を同定する。
E-SSLの実用設計の原則をいくつか明らかにする。
論文 参考訳(メタデータ) (2024-11-10T16:09:47Z) - Universal New Physics Latent Space [0.0]
我々は、標準モデルプロセスと標準モデル以外の様々な理論から派生したデータを統一表現(ラテント)空間にマッピングする機械学習手法を開発した。
本手法は, LHCにおける新しい物理の3つの例に適用し, LHCの表現法に従ってモデルがクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2024-07-29T18:00:00Z) - MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model [11.91010815015959]
マルチモーダル大言語モデルにおけるドメイン固有ニューロンを同定する。
本稿では,MLLMの言語モデルモジュールに対して,投影された画像特徴を扱うための3段階の機構を提案する。
論文 参考訳(メタデータ) (2024-06-17T03:59:44Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。
以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。
本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文 参考訳(メタデータ) (2023-12-05T12:48:04Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - Finding Neurons in a Haystack: Case Studies with Sparse Probing [2.278231643598956]
大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。
入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。
k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
論文 参考訳(メタデータ) (2023-05-02T17:13:55Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Beyond Instance Discrimination: Relation-aware Contrastive
Self-supervised Learning [75.46664770669949]
本稿では,関係認識型コントラスト型自己教師型学習(ReCo)をインスタンス関係に統合するために提案する。
当社のReCoは、常に顕著なパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2022-11-02T03:25:28Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - Measuring dissimilarity with diffeomorphism invariance [94.02751799024684]
DID(DID)は、幅広いデータ空間に適用可能なペアワイズな相似性尺度である。
我々は、DIDが理論的研究と実用に関係のある特性を享受していることを証明する。
論文 参考訳(メタデータ) (2022-02-11T13:51:30Z) - Sparse Interventions in Language Models with Differentiable Masking [37.220380160016624]
本稿では,言語現象の原因となるニューロンの小さなサブセットをニューラルLM内で発見する手法を提案する。
実験により、これらの現象はニューロンの小さなサブセットを介して媒介されていることが確認された。
論文 参考訳(メタデータ) (2021-12-13T17:49:16Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Learning Mixtures of Random Utility Models with Features from Incomplete
Preferences [34.50516583809234]
それぞれの代替品が、おそらくエージェント間で異なる、機能のベクターを持つような、機能とそれらの混合を伴うRUMについて検討する。
我々はRUMと特徴の混合を不完全な嗜好を生成し、その識別性を特徴づけるモデルに拡張する。
本実験は,PL上でのMLEの有効性を示すものであり,統計効率と計算効率のトレードオフがある。
論文 参考訳(メタデータ) (2020-06-06T13:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。