論文の概要: SAEs Are Good for Steering -- If You Select the Right Features
- arxiv url: http://arxiv.org/abs/2505.20063v1
- Date: Mon, 26 May 2025 14:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.523553
- Title: SAEs Are Good for Steering -- If You Select the Right Features
- Title(参考訳): SAEはステアリングに良い -- 適切な機能を選択するなら
- Authors: Dana Arad, Aaron Mueller, Yonatan Belinkov,
- Abstract要約: 現在の方法では、それらを活性化する入力トークンを分析して、SAEの機能をステアに識別する。
本研究では,主にモデル入力のパターンをキャプチャする入力特徴と,モデル出力に対する人間の理解可能な影響を持つ出力特徴の2つの特徴を区別する。
- 参考スコア(独自算出の注目度): 45.47261543304217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have been proposed as an unsupervised approach to learn a decomposition of a model's latent space. This enables useful applications such as steering - influencing the output of a model towards a desired concept - without requiring labeled data. Current methods identify SAE features to steer by analyzing the input tokens that activate them. However, recent work has highlighted that activations alone do not fully describe the effect of a feature on the model's output. In this work, we draw a distinction between two types of features: input features, which mainly capture patterns in the model's input, and output features, which have a human-understandable effect on the model's output. We propose input and output scores to characterize and locate these types of features, and show that high values for both scores rarely co-occur in the same features. These findings have practical implications: after filtering out features with low output scores, we obtain 2-3x improvements when steering with SAEs, making them competitive with supervised methods.
- Abstract(参考訳): スパースオートエンコーダ (SAE) はモデル潜在空間の分解を学習するための教師なしアプローチとして提案されている。
これにより、ラベル付きデータを必要としない、ステアリングのような有用なアプリケーション - 望ましい概念に向けてモデルの出力に影響を与える - が可能になります。
現在の方法では、それらを活性化する入力トークンを分析して、SAEの機能をステアに識別する。
しかし、最近の研究は、アクティベーションだけでは、ある機能がモデルの出力に与える影響を完全に記述していないことを強調している。
本研究では,主にモデル入力のパターンをキャプチャする入力特徴と,モデル出力に対する人間の理解可能な影響を持つ出力特徴の2つの特徴を区別する。
本研究では,これらの特徴を特徴付け,特定するための入出力スコアを提案し,両スコアの高値が同一の特徴と同一視されることが滅多にないことを示す。
これらの知見は, 出力スコアの低い特徴をフィルタリングした後, SAEによるステアリングでは2~3倍の改善が得られ, 教師付き手法と競合することがわかった。
関連論文リスト
- Beyond Input Activations: Identifying Influential Latents by Gradient Sparse Autoencoders [38.53091987125025]
本研究は,(1)活性化潜水剤はモデル出力の構成に等しく寄与しない,(2)因果的影響が高い潜水剤のみがモデルステアリングに有効である,という2つの重要な仮説に基づいて構築されている。
これらの仮説を検証するために、出力側勾配情報を組み込んで最も影響力のある潜伏者を識別する簡易かつ効果的なGradSAE(Gradient Sparse Autoencoder)を提案する。
論文 参考訳(メタデータ) (2025-05-12T21:29:12Z) - Enhancing Automated Interpretability with Output-Centric Feature Descriptions [14.591455690954513]
本稿では,特徴記述を自動生成する効率的な出力中心手法を提案する。
我々の記述は、入力中心の記述よりもモデル出力に対する特徴の因果効果をよりよく捉えている。
以前は"デッド"と思われていた特徴を活性化するインプットを見つけるために,出力中心の記述が利用できることを示す。
論文 参考訳(メタデータ) (2025-01-14T18:53:00Z) - Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - Rethinking interpretation: Input-agnostic saliency mapping of deep
visual classifiers [28.28834523468462]
Saliencyメソッドは、入力特徴をモデル出力に寄与させることで、ポストホックモデルの解釈を提供する。
入力特異性マッピングは本質的に誤解を招く特徴の帰属に影響を受けやすいことを示す。
本稿では,モデルが持つ高次特徴をその出力に対して計算的に推定する,入力非依存のサリエンシマッピングの新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-03-31T06:58:45Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - AutoAssign: Differentiable Label Assignment for Dense Object Detection [94.24431503373884]
Auto COCOは、物体検出のためのアンカーフリー検出器である。
外観認識は、完全に微分可能な重み付け機構によって実現される。
我々の最良のモデルでは52.1%のAPが達成され、既存の1段検出器よりも優れている。
論文 参考訳(メタデータ) (2020-07-07T14:32:21Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z) - S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement
and Data Generation [31.38329747789168]
自己超越下での逐次データの不整合表現を学習するための逐次変分オートエンコーダを提案する。
我々は、入力データ自体から容易にアクセス可能な監視信号や、市販の機能モデルから得られる利点を利用する。
我々のモデルは入力シーケンスの表現を静的因子と動的因子に容易に切り離すことができる。
論文 参考訳(メタデータ) (2020-05-23T00:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。