論文の概要: Quantifying Feature Space Universality Across Large Language Models via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2410.06981v4
- Date: Wed, 21 May 2025 00:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:56.928636
- Title: Quantifying Feature Space Universality Across Large Language Models via Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いた大規模言語モデルにおける特徴空間の普遍性の定量化
- Authors: Michael Lan, Philip Torr, Austin Meek, Ashkan Khakzar, David Krueger, Fazl Barez,
- Abstract要約: 普遍性仮説 (University hypothesis) は、異なるモデルがその潜在空間における同様の概念表現に収束すると主張している。
アナロガス特徴普遍性(Analogous Feature Universality)と呼ばれる普遍性仮説の新たなバリエーションを導入する。
- 参考スコア(独自算出の注目度): 14.594698598522797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Universality Hypothesis in large language models (LLMs) claims that different models converge towards similar concept representations in their latent spaces. Providing evidence for this hypothesis would enable researchers to exploit universal properties, facilitating the generalization of mechanistic interpretability techniques across models. Previous works studied if LLMs learned the same features, which are internal representations that activate on specific concepts. Since comparing features across LLMs is challenging due to polysemanticity, in which LLM neurons often correspond to multiple unrelated features rather than to distinct concepts, sparse autoencoders (SAEs) have been employed to disentangle LLM neurons into SAE features corresponding to distinct concepts. In this paper, we introduce a new variation of the universality hypothesis called Analogous Feature Universality: we hypothesize that even if SAEs across different models learn different feature representations, the spaces spanned by SAE features are similar, such that one SAE space is similar to another SAE space under rotation-invariant transformations. Evidence for this hypothesis would imply that interpretability techniques related to latent spaces, such as steering vectors, may be transferred across models via certain transformations. To investigate this hypothesis, we first pair SAE features across different models via activation correlation, and then measure spatial relation similarities between paired features via representational similarity measures, which transform spaces into representations that reveal hidden relational similarities. Our experiments demonstrate high similarities for SAE feature spaces across various LLMs, providing evidence for feature space universality.
- Abstract(参考訳): 大規模言語モデル(LLM)における普遍性仮説(Universality hypothesis)は、異なるモデルがその潜在空間における同様の概念表現に収束すると主張している。
この仮説の証拠を提供することで、研究者は普遍的な性質を活用でき、モデル全体の機械的解釈可能性技術の一般化を促進することができる。
LLMが特定の概念を活性化する内部表現である同じ特徴を学習したかどうか、以前の研究で研究された。
LLMニューロンが異なる概念ではなく複数の無関係な特徴に対応している多意味性のため、LSMを横断する特徴を比較することは困難であるため、スパースオートエンコーダ (SAE) は異なる概念に対応するSAE特徴にLLMニューロンをアンタングルするために用いられる。
本稿では,異なるモデルにまたがるSAEが異なる特徴表現を学習しても,SAE特徴によって広がる空間は,回転不変変換の下であるSAE空間が他のSAE空間と類似している,という仮説を提唱する。
この仮説の証拠は、ステアリングベクトルのような潜在空間に関連する解釈可能性のテクニックが、ある種の変換を通じてモデル間で伝達されることを意味する。
この仮説を考察するために、まずアクティベーション相関を用いて異なるモデル間でSAE特徴をペアリングし、次いで、空間を隠れた関係類似性を示す表現に変換する表現的類似度測定により、ペア化された特徴間の空間的関係類似度を測定する。
本実験は, 種々のLLMにまたがるSAE特徴空間に高い類似性を示し, 特徴空間の普遍性を示す証拠となる。
関連論文リスト
- LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model [11.91010815015959]
マルチモーダル大言語モデルにおけるドメイン固有ニューロンを同定する。
本稿では,MLLMの言語モデルモジュールに対して,投影された画像特徴を扱うための3段階の機構を提案する。
論文 参考訳(メタデータ) (2024-06-17T03:59:44Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - Towards Measuring Representational Similarity of Large Language Models [1.7228514699394508]
7Bパラメータを持つ大規模言語モデルの表現の類似性を測定する。
以上の結果から,LLMは他と大きく異なるものが存在することが示唆された。
本研究は, 類似度スコアの注意深い研究の必要性を示唆する表現的類似度尺度を用いる際の課題を明らかにする。
論文 参考訳(メタデータ) (2023-12-05T12:48:04Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - Finding Neurons in a Haystack: Case Studies with Sparse Probing [2.278231643598956]
大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。
入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。
k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
論文 参考訳(メタデータ) (2023-05-02T17:13:55Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Sparse Interventions in Language Models with Differentiable Masking [37.220380160016624]
本稿では,言語現象の原因となるニューロンの小さなサブセットをニューラルLM内で発見する手法を提案する。
実験により、これらの現象はニューロンの小さなサブセットを介して媒介されていることが確認された。
論文 参考訳(メタデータ) (2021-12-13T17:49:16Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Learning Mixtures of Random Utility Models with Features from Incomplete
Preferences [34.50516583809234]
それぞれの代替品が、おそらくエージェント間で異なる、機能のベクターを持つような、機能とそれらの混合を伴うRUMについて検討する。
我々はRUMと特徴の混合を不完全な嗜好を生成し、その識別性を特徴づけるモデルに拡張する。
本実験は,PL上でのMLEの有効性を示すものであり,統計効率と計算効率のトレードオフがある。
論文 参考訳(メタデータ) (2020-06-06T13:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。