Fugu-MT 論文翻訳(概要): Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering

論文の概要: Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering

arxiv url: http://arxiv.org/abs/2505.15038v2
Date: Tue, 29 Jul 2025 21:40:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 14:05:51.075544
Title: Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering
Title（参考訳）: 言語モデルステアリング改善のためのスパースオートエンコーダを用いた概念ベクトルの特定
Authors: Haiyan Zhao, Xuansheng Wu, Fan Yang, Bo Shen, Ninghao Liu, Mengnan Du,
Abstract要約: 線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。 Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。
参考スコア（独自算出の注目度）: 41.588589098740755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Linear concept vectors effectively steer LLMs, but existing methods suffer from noisy features in diverse datasets that undermine steering robustness. We propose Sparse Autoencoder-Denoised Concept Vectors (SDCV), which selectively keep the most discriminative SAE latents while reconstructing hidden representations. Our key insight is that concept-relevant signals can be explicitly separated from dataset noise by scaling up activations of top-k latents that best differentiate positive and negative samples. Applied to linear probing and difference-in-mean, SDCV consistently improves steering success rates by 4-16\% across six challenging concepts, while maintaining topic relevance.
Abstract（参考訳）: 線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。 Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。私たちの重要な洞察は、概念関連信号は、正と負のサンプルを最もよく区別するトップkのラテントのアクティベーションをスケールアップすることで、データセットノイズから明確に分離できるということです。線形探索と差分平均に応用すると、SDCVはトピックの関連性を維持しつつ、6つの難しい概念に対して、ステアリング成功率を4-16\%改善する。

関連論文リスト

Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文参考訳（メタデータ） (2025-06-05T06:39:43Z)
Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts [11.81523319216474]
ステアリング法は、大きな言語モデル(LLM)の表現を操作して、望ましい特性を持つ応答を誘導する。伝統的に、ステアリングは、単一のターゲット概念で異なる対照的なプロンプトのペアなど、監督に依存してきた。 Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
論文参考訳（メタデータ） (2025-02-14T08:49:41Z)
Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文参考訳（メタデータ） (2024-06-23T09:06:52Z)
Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。 WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文参考訳（メタデータ） (2023-02-12T13:51:36Z)
Covariate-informed Representation Learning with Samplewise Optimal Identifiable Variational Autoencoders [15.254297587065595]
最近提案された変分オートエンコーダ (iVAE) は、データの潜在独立成分を学習するための有望なアプローチを提供する。我々は新しいアプローチ、CI-iVAE(co-informed identible VAE)を開発した。目的関数は逆関係を強制し、学習された表現はより多くの観測情報を含む。
論文参考訳（メタデータ） (2022-02-09T00:18:33Z)
Navigating Neural Space: Revisiting Concept Activation Vectors to Overcome Directional Divergence [13.618809162030486]
概念活性化ベクトル (Concept Activation Vectors, CAV) は、潜在空間における人間の理解可能な概念をモデル化するための一般的なツールである。本稿では、そのような分離性指向の解が、概念の方向性を正確にモデル化する実際の目標から逸脱する可能性があることを示す。パターンベースのCAVを導入し、概念信号のみに着目し、より正確な概念指示を提供する。
論文参考訳（メタデータ） (2022-02-07T19:40:20Z)
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文参考訳（メタデータ） (2022-02-02T23:54:26Z)
InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文参考訳（メタデータ） (2021-06-25T16:34:05Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)
Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文参考訳（メタデータ） (2021-02-08T11:45:02Z)
Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文参考訳（メタデータ） (2020-12-07T14:16:14Z)
Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文参考訳（メタデータ） (2020-07-23T18:47:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。