論文の概要: Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs
- arxiv url: http://arxiv.org/abs/2410.12555v1
- Date: Wed, 16 Oct 2024 13:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:41:38.623329
- Title: Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs
- Title(参考訳): GPT-2における感度方向の探索:改良されたベースラインとSAEの比較分析
- Authors: Daniel J. Lee, Stefan Heimersheim,
- Abstract要約: Sparse Autoencoder (SAE) 再構成誤差に対するKLのばらつきは, 改善されたベースラインと比較して, もはや病理学的に高くはない。
また,SAEが発見する特徴方向が,SAEの疎度に依存するモデル出力に与える影響も示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sensitive directions experiments attempt to understand the computational features of Language Models (LMs) by measuring how much the next token prediction probabilities change by perturbing activations along specific directions. We extend the sensitive directions work by introducing an improved baseline for perturbation directions. We demonstrate that KL divergence for Sparse Autoencoder (SAE) reconstruction errors are no longer pathologically high compared to the improved baseline. We also show that feature directions uncovered by SAEs have varying impacts on model outputs depending on the SAE's sparsity, with lower L0 SAE feature directions exerting a greater influence. Additionally, we find that end-to-end SAE features do not exhibit stronger effects on model outputs compared to traditional SAEs.
- Abstract(参考訳): 感性方向実験は、特定の方向に沿ってアクティベーションを摂動することで次のトークン予測確率がどの程度変化するかを測定することによって、言語モデル(LM)の計算的特徴を理解しようとする。
我々は、摂動方向のための改良されたベースラインを導入することで、感度の高い方向作業を拡張する。
Sparse Autoencoder (SAE) 再構成誤差に対するKLのばらつきは, 改善されたベースラインと比較して, もはや病理学的に高くないことを示す。
また,SAEが明らかにした特徴方向が,SAEの疎度に応じてモデル出力に様々な影響を及ぼし,低L0のSAE特徴方向が大きな影響を与えることを示した。
さらに,従来のSAEと比較して,エンド・ツー・エンドのSAE機能はモデル出力に強く影響しないことがわかった。
関連論文リスト
- Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
ステアリングベクトルの効果をSAEを用いて測定し、ステアリングベクトル介入の因果効果を理解する方法を提案する。
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。
論文 参考訳(メタデータ) (2024-11-04T15:46:20Z) - Decomposing The Dark Matter of Sparse Autoencoders [6.932760557251821]
この研究は、ダークマターを研究対象として研究する。
誤差ベクトルの約半分であるSAE暗黒物質の多くは、初期活性化ベクトルから線形に予測できる。
また,トークン単位のSAEエラーノルムのスケーリング挙動が著しく予測可能であることも確認した。
論文 参考訳(メタデータ) (2024-10-18T17:58:53Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Explainable AI models for predicting liquefaction-induced lateral spreading [1.6221957454728797]
機械学習は横方向の拡散予測モデルを改善することができる。
機械学習モデルの“ブラックボックス”の性質は、重要な意思決定における採用を妨げる可能性がある。
この研究は、信頼性と情報的意思決定のための説明可能な機械学習の価値を強調している。
論文 参考訳(メタデータ) (2024-04-24T16:25:52Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - Learned ISTA with Error-based Thresholding for Adaptive Sparse Coding [58.73333095047114]
学習用ISTA(LISTA)のためのエラーベースのしきい値設定機構を提案する。
提案手法は, 縮小関数の学習可能なパラメータを再構成誤差からよく切り離していることを示す。
論文 参考訳(メタデータ) (2021-12-21T05:07:54Z) - Dense Prediction with Attentive Feature Aggregation [26.205279570906473]
我々は、より表現力のある非線形操作で異なるネットワーク層を融合させるために、注意的特徴集約(AFA)を導入する。
AFAは、層活性化の重み付き平均を計算するために空間的注意とチャネル的注意の両方を利用する。
我々の実験は、挑戦的なセマンティックセグメンテーションベンチマークにおいて一貫した、重要な改善を示す。
論文 参考訳(メタデータ) (2021-11-01T08:44:45Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Enhanced Principal Component Analysis under A Collaborative-Robust
Framework [89.28334359066258]
重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。
提案されたフレームワークでは、トレーニング中の重要度を示す適切なサンプルの一部のみがアクティブになり、エラーが大きい他のサンプルは無視されません。
特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。
論文 参考訳(メタデータ) (2021-03-22T15:17:37Z) - Improving Aspect-Level Sentiment Analysis with Aspect Extraction [104.3459510527776]
この研究は主に、事前訓練されたAEモデルから知識を移すことがALSAモデルの性能に利益をもたらすという仮説を立てている。
本研究は,3種類のベースラインALSAモデルの性能を有意に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-03T06:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。