論文の概要: Can sparse autoencoders be used to decompose and interpret steering vectors?
- arxiv url: http://arxiv.org/abs/2411.08790v1
- Date: Wed, 13 Nov 2024 17:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:12:04.303127
- Title: Can sparse autoencoders be used to decompose and interpret steering vectors?
- Title(参考訳): スパースオートエンコーダはステアリングベクトルの分解と解釈に使用できるか?
- Authors: Harry Mayne, Yushi Yang, Adam Mahdi,
- Abstract要約: ステアリングベクトルは、大きな言語モデルの振る舞いを制御するための有望なアプローチである。
最近の研究では、SAE再構成ベクターは元のベクターの操舵特性を欠いていることが示されている。
これらの制限は、ステアリングベクトルの解釈にSAEを直接使用するのを妨げる。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License:
- Abstract: Steering vectors are a promising approach to control the behaviour of large language models. However, their underlying mechanisms remain poorly understood. While sparse autoencoders (SAEs) may offer a potential method to interpret steering vectors, recent findings show that SAE-reconstructed vectors often lack the steering properties of the original vectors. This paper investigates why directly applying SAEs to steering vectors yields misleading decompositions, identifying two reasons: (1) steering vectors fall outside the input distribution for which SAEs are designed, and (2) steering vectors can have meaningful negative projections in feature directions, which SAEs are not designed to accommodate. These limitations hinder the direct use of SAEs for interpreting steering vectors.
- Abstract(参考訳): ステアリングベクトルは、大きな言語モデルの振る舞いを制御するための有望なアプローチである。
しかし、その根底にあるメカニズムはいまだに理解されていない。
スパースオートエンコーダ (SAEs) はステアリングベクトルを解釈する潜在的な方法であるが、最近の研究はSAE再構成ベクターが元のベクターのステアリング特性を欠いていることをしばしば示している。
本稿では,(1) ステアリングベクトルが入力分布の外に落下する,(2) ステアリングベクトルが特徴方向に有意な負のプロジェクションを持つ,という2つの理由から, ステアリングベクトルにSAEを直接適用すると, 誤解を招く分解が生じる理由について考察する。
これらの制限は、ステアリングベクトルの解釈にSAEを直接使用するのを妨げる。
関連論文リスト
- Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
ステアリングベクトルの効果をSAEを用いて測定し、ステアリングベクトル介入の因果効果を理解する方法を提案する。
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。
論文 参考訳(メタデータ) (2024-11-04T15:46:20Z) - A Walsh Hadamard Derived Linear Vector Symbolic Architecture [83.27945465029167]
シンボリックベクトルアーキテクチャ(VSAs)は、ニューロシンボリックAIを開発するためのアプローチである。
HLBは計算効率が良く、従来のVSAタスクで有効であるように設計されている。
論文 参考訳(メタデータ) (2024-10-30T03:42:59Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。
プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2023-07-16T11:43:04Z) - Online Map Vectorization for Autonomous Driving: A Rasterization
Perspective [58.71769343511168]
より優れた感度を有し,現実の自律運転シナリオに適した,新化に基づく評価指標を提案する。
また、精度の高い出力に微分可能化を適用し、HDマップの幾何学的監視を行う新しいフレームワークであるMapVR(Map Vectorization via Rasterization)を提案する。
論文 参考訳(メタデータ) (2023-06-18T08:51:14Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Vector Embeddings with Subvector Permutation Invariance using a Triplet
Enhanced Autoencoder [0.0]
本稿では,三重項損失に強化されたオートエンコーダを用いて,構成部分ベクトルの置換によって関連付けられたベクトルのクラスタリングを促進する。
次に、これらの不変な埋め込みを、分類やクラスタリングなどの他の問題への入力として使用し、それらの問題における検出精度を向上させる。
論文 参考訳(メタデータ) (2020-11-18T21:24:07Z) - Improving Aspect-based Sentiment Analysis with Gated Graph Convolutional
Networks and Syntax-based Regulation [89.38054401427173]
Aspect-based Sentiment Analysis (ABSA) は、特定の側面に向けて文の感情極性を予測する。
依存関係ツリーは、ABSAの最先端のパフォーマンスを生成するために、ディープラーニングモデルに統合することができる。
本稿では,この2つの課題を克服するために,グラフに基づく新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2020-10-26T07:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。