論文の概要: Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering
- arxiv url: http://arxiv.org/abs/2505.15038v2
- Date: Tue, 29 Jul 2025 21:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 14:05:51.075544
- Title: Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering
- Title(参考訳): 言語モデルステアリング改善のためのスパースオートエンコーダを用いた概念ベクトルの特定
- Authors: Haiyan Zhao, Xuansheng Wu, Fan Yang, Bo Shen, Ninghao Liu, Mengnan Du,
- Abstract要約: 線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。
Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。
- 参考スコア(独自算出の注目度): 41.588589098740755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear concept vectors effectively steer LLMs, but existing methods suffer from noisy features in diverse datasets that undermine steering robustness. We propose Sparse Autoencoder-Denoised Concept Vectors (SDCV), which selectively keep the most discriminative SAE latents while reconstructing hidden representations. Our key insight is that concept-relevant signals can be explicitly separated from dataset noise by scaling up activations of top-k latents that best differentiate positive and negative samples. Applied to linear probing and difference-in-mean, SDCV consistently improves steering success rates by 4-16\% across six challenging concepts, while maintaining topic relevance.
- Abstract(参考訳): 線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。
Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。
私たちの重要な洞察は、概念関連信号は、正と負のサンプルを最もよく区別するトップkのラテントのアクティベーションをスケールアップすることで、データセットノイズから明確に分離できるということです。
線形探索と差分平均に応用すると、SDCVはトピックの関連性を維持しつつ、6つの難しい概念に対して、ステアリング成功率を4-16\%改善する。
関連論文リスト
- Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。
本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。
実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-23T09:06:52Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。