論文の概要: Evaluating Synthetic Activations composed of SAE Latents in GPT-2
- arxiv url: http://arxiv.org/abs/2409.15019v2
- Date: Mon, 18 Nov 2024 10:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:28:35.709666
- Title: Evaluating Synthetic Activations composed of SAE Latents in GPT-2
- Title(参考訳): GPT-2におけるSAE潜水剤の合成活性評価
- Authors: Giorgi Giglemiani, Nora Petrova, Chatrik Singh Mangat, Jett Janiak, Stefan Heimersheim,
- Abstract要約: スパースオートエンコーダ(SAE)は、機械的解釈可能性において一般的に用いられる。
最近の研究は、モデルが初期層でアクティベーションを乱すことが、モデルの最終層アクティベーションのステップ関数のような変化をもたらすことを示した。
実際の活性化とSAE潜伏剤からなる合成活性化を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sparse Auto-Encoders (SAEs) are commonly employed in mechanistic interpretability to decompose the residual stream into monosemantic SAE latents. Recent work demonstrates that perturbing a model's activations at an early layer results in a step-function-like change in the model's final layer activations. Furthermore, the model's sensitivity to this perturbation differs between model-generated (real) activations and random activations. In our study, we assess model sensitivity in order to compare real activations to synthetic activations composed of SAE latents. Our findings indicate that synthetic activations closely resemble real activations when we control for the sparsity and cosine similarity of the constituent SAE latents. This suggests that real activations cannot be explained by a simple "bag of SAE latents" lacking internal structure, and instead suggests that SAE latents possess significant geometric and statistical properties. Notably, we observe that our synthetic activations exhibit less pronounced activation plateaus compared to those typically surrounding real activations.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、通常、残留ストリームを単意味のSAEラテントに分解するために機械論的解釈性に使用される。
最近の研究は、モデルが初期層でアクティベーションを乱すことが、モデルの最終層アクティベーションのステップ関数のような変化をもたらすことを示した。
さらに、この摂動に対するモデルの感度は、モデル生成された(実際の)アクティベーションとランダムなアクティベーションとの違いがある。
本研究では,SAE潜水剤からなる合成活性化と実際の活性化を比較するために,モデル感度を評価する。
以上の結果より, 合成活性化は, 成分SAE潜伏剤の親和性およびコサイン類似性を制御する際に, 実際の活性化と密接に類似していることが示唆された。
これは、実際の活性化は内部構造を欠いた単純な「SAE潜伏剤の袋」によって説明できないことを示唆し、代わりにSAE潜伏剤が重要な幾何学的および統計的性質を持つことを示唆している。
特に、我々の合成活性化は、通常、実際の活性化を取り巻くものに比べて、顕著な活性化高原を示すことが観察された。
関連論文リスト
- Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。
近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文 参考訳(メタデータ) (2024-10-04T16:05:14Z) - Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study [20.404448253054014]
言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性について検討した。
我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。
論文 参考訳(メタデータ) (2024-05-15T11:42:42Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - Enhancing Sequential Model Performance with Squared Sigmoid TanH (SST)
Activation Under Data Constraints [0.0]
本研究では,データ制約下での逐次モデルの学習能力を高めるために,SST(Sigmoid TanH)アクティベーションの2乗化を提案する。
SSTは、信号が時間とともに伝播するにつれて、強い活性化と弱い活性化の差を増幅するために数学的なスクアリングを適用している。
我々は,手話認識,回帰,時系列分類タスクなどの多様なアプリケーションに対して,SSTを利用したLSTMとGRUを評価した。
論文 参考訳(メタデータ) (2024-02-14T09:20:13Z) - Stochastic Adaptive Activation Function [1.9199289015460212]
本研究では,単位の位置や入力の文脈に応じて,異なるしきい値と適応的なアクティベーションを促進する,シンプルで効果的なアクティベーション関数を提案する。
実験により,我々のアクティベーション関数は,多くのディープラーニングアプリケーションにおいて,より正確な予測と早期収束の利点を享受できることを示した。
論文 参考訳(メタデータ) (2022-10-21T01:57:25Z) - Weakly Supervised Representation Learning with Sparse Perturbations [82.39171485023276]
潜伏変数のスパース摂動によって生じる観測の監督が弱い場合、未知の連続潜伏分布の下で識別が達成可能であることを示す。
本稿では,この理論に基づく自然な推定手法を提案し,それを低次元の合成および画像に基づく実験で説明する。
論文 参考訳(メタデータ) (2022-06-02T15:30:07Z) - Analytical Interpretation of Latent Codes in InfoGAN with SAR Images [13.916484647299988]
遅延符号は非線形な方法でSAR画像の特性に影響を与えることが示される。
特性は潜時符号で計算でき、逆に満足な潜時符号は所望の特性から推定できる。
論文 参考訳(メタデータ) (2022-05-26T12:13:31Z) - Unveiling the role of plasticity rules in reservoir computing [0.0]
Reservoir Computing (RC) は機械学習において魅力的なアプローチである。
我々は,RCの性能向上につながる変化に対して,塑性規則が果たす役割を分析する。
論文 参考訳(メタデータ) (2021-01-14T19:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。