論文の概要: Beyond Input Activations: Identifying Influential Latents by Gradient Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.08080v1
- Date: Mon, 12 May 2025 21:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.339134
- Title: Beyond Input Activations: Identifying Influential Latents by Gradient Sparse Autoencoders
- Title(参考訳): 入力アクティベーションを超えて:グラディエントスパースオートエンコーダによる流動性潜水剤の同定
- Authors: Dong Shu, Xuansheng Wu, Haiyan Zhao, Mengnan Du, Ninghao Liu,
- Abstract要約: 本研究は,(1)活性化潜水剤はモデル出力の構成に等しく寄与しない,(2)因果的影響が高い潜水剤のみがモデルステアリングに有効である,という2つの重要な仮説に基づいて構築されている。
これらの仮説を検証するために、出力側勾配情報を組み込んで最も影響力のある潜伏者を識別する簡易かつ効果的なGradSAE(Gradient Sparse Autoencoder)を提案する。
- 参考スコア(独自算出の注目度): 38.53091987125025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have recently emerged as powerful tools for interpreting and steering the internal representations of large language models (LLMs). However, conventional approaches to analyzing SAEs typically rely solely on input-side activations, without considering the causal influence between each latent feature and the model's output. This work is built on two key hypotheses: (1) activated latents do not contribute equally to the construction of the model's output, and (2) only latents with high causal influence are effective for model steering. To validate these hypotheses, we propose Gradient Sparse Autoencoder (GradSAE), a simple yet effective method that identifies the most influential latents by incorporating output-side gradient information.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は近年,大規模言語モデル(LLM)の内部表現を解釈し,ステアリングするための強力なツールとして登場した。
しかし、従来のSAEの分析手法は、各潜在特徴とモデル出力の間の因果的影響を考慮せずに、入力側アクティベーションにのみ依存する。
本研究は,(1)活性化潜水剤はモデル出力の構成に等しく寄与しない,(2)因果的影響が高い潜水剤のみがモデルステアリングに有効である,という2つの重要な仮説に基づいて構築されている。
これらの仮説を検証するために、出力側勾配情報を組み込んで最も影響力のある潜伏者を識別する簡易かつ効果的なGradSAE(Gradient Sparse Autoencoder)を提案する。
関連論文リスト
- Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。