論文の概要: Can sparse autoencoders be used to decompose and interpret steering vectors?
- arxiv url: http://arxiv.org/abs/2411.08790v1
- Date: Wed, 13 Nov 2024 17:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:12:04.303127
- Title: Can sparse autoencoders be used to decompose and interpret steering vectors?
- Title(参考訳): スパースオートエンコーダはステアリングベクトルの分解と解釈に使用できるか?
- Authors: Harry Mayne, Yushi Yang, Adam Mahdi,
- Abstract要約: ステアリングベクトルは、大きな言語モデルの振る舞いを制御するための有望なアプローチである。
最近の研究では、SAE再構成ベクターは元のベクターの操舵特性を欠いていることが示されている。
これらの制限は、ステアリングベクトルの解釈にSAEを直接使用するのを妨げる。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License:
- Abstract: Steering vectors are a promising approach to control the behaviour of large language models. However, their underlying mechanisms remain poorly understood. While sparse autoencoders (SAEs) may offer a potential method to interpret steering vectors, recent findings show that SAE-reconstructed vectors often lack the steering properties of the original vectors. This paper investigates why directly applying SAEs to steering vectors yields misleading decompositions, identifying two reasons: (1) steering vectors fall outside the input distribution for which SAEs are designed, and (2) steering vectors can have meaningful negative projections in feature directions, which SAEs are not designed to accommodate. These limitations hinder the direct use of SAEs for interpreting steering vectors.
- Abstract(参考訳): ステアリングベクトルは、大きな言語モデルの振る舞いを制御するための有望なアプローチである。
しかし、その根底にあるメカニズムはいまだに理解されていない。
スパースオートエンコーダ (SAEs) はステアリングベクトルを解釈する潜在的な方法であるが、最近の研究はSAE再構成ベクターが元のベクターのステアリング特性を欠いていることをしばしば示している。
本稿では,(1) ステアリングベクトルが入力分布の外に落下する,(2) ステアリングベクトルが特徴方向に有意な負のプロジェクションを持つ,という2つの理由から, ステアリングベクトルにSAEを直接適用すると, 誤解を招く分解が生じる理由について考察する。
これらの制限は、ステアリングベクトルの解釈にSAEを直接使用するのを妨げる。
関連論文リスト
- Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts [11.81523319216474]
ステアリング法は、大きな言語モデル(LLM)の表現を操作して、望ましい特性を持つ応答を誘導する。
伝統的に、ステアリングは、単一のターゲット概念で異なる対照的なプロンプトのペアなど、監督に依存してきた。
Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
論文 参考訳(メタデータ) (2025-02-14T08:49:41Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。
SAE-TSは,様々なタスクで評価すると,CAAとSAEの特徴的ステアリングよりもコヒーレンスとステアリング効果のバランスが良いことを示す。
論文 参考訳(メタデータ) (2024-11-04T15:46:20Z) - A Walsh Hadamard Derived Linear Vector Symbolic Architecture [83.27945465029167]
シンボリックベクトルアーキテクチャ(VSAs)は、ニューロシンボリックAIを開発するためのアプローチである。
HLBは計算効率が良く、従来のVSAタスクで有効であるように設計されている。
論文 参考訳(メタデータ) (2024-10-30T03:42:59Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。
プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2023-07-16T11:43:04Z) - Online Map Vectorization for Autonomous Driving: A Rasterization
Perspective [58.71769343511168]
より優れた感度を有し,現実の自律運転シナリオに適した,新化に基づく評価指標を提案する。
また、精度の高い出力に微分可能化を適用し、HDマップの幾何学的監視を行う新しいフレームワークであるMapVR(Map Vectorization via Rasterization)を提案する。
論文 参考訳(メタデータ) (2023-06-18T08:51:14Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Improving Aspect-based Sentiment Analysis with Gated Graph Convolutional
Networks and Syntax-based Regulation [89.38054401427173]
Aspect-based Sentiment Analysis (ABSA) は、特定の側面に向けて文の感情極性を予測する。
依存関係ツリーは、ABSAの最先端のパフォーマンスを生成するために、ディープラーニングモデルに統合することができる。
本稿では,この2つの課題を克服するために,グラフに基づく新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2020-10-26T07:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。