Fugu-MT 論文翻訳(概要): Can sparse autoencoders be used to decompose and interpret steering vectors?

論文の概要: Can sparse autoencoders be used to decompose and interpret steering vectors?

arxiv url: http://arxiv.org/abs/2411.08790v1
Date: Wed, 13 Nov 2024 17:16:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.381907
Title: Can sparse autoencoders be used to decompose and interpret steering vectors?
Title（参考訳）: スパースオートエンコーダはステアリングベクトルの分解と解釈に使用できるか?
Authors: Harry Mayne, Yushi Yang, Adam Mahdi,
Abstract要約: ステアリングベクトルは、大きな言語モデルの振る舞いを制御するための有望なアプローチである。最近の研究では、SAE再構成ベクターは元のベクターの操舵特性を欠いていることが示されている。これらの制限は、ステアリングベクトルの解釈にSAEを直接使用するのを妨げる。
参考スコア（独自算出の注目度）: 0.6144680854063939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Steering vectors are a promising approach to control the behaviour of large language models. However, their underlying mechanisms remain poorly understood. While sparse autoencoders (SAEs) may offer a potential method to interpret steering vectors, recent findings show that SAE-reconstructed vectors often lack the steering properties of the original vectors. This paper investigates why directly applying SAEs to steering vectors yields misleading decompositions, identifying two reasons: (1) steering vectors fall outside the input distribution for which SAEs are designed, and (2) steering vectors can have meaningful negative projections in feature directions, which SAEs are not designed to accommodate. These limitations hinder the direct use of SAEs for interpreting steering vectors.
Abstract（参考訳）: ステアリングベクトルは、大きな言語モデルの振る舞いを制御するための有望なアプローチである。しかし、その根底にあるメカニズムはいまだに理解されていない。スパースオートエンコーダ (SAEs) はステアリングベクトルを解釈する潜在的な方法であるが、最近の研究はSAE再構成ベクターが元のベクターのステアリング特性を欠いていることをしばしば示している。本稿では,(1) ステアリングベクトルが入力分布の外に落下する,(2) ステアリングベクトルが特徴方向に有意な負のプロジェクションを持つ,という2つの理由から, ステアリングベクトルにSAEを直接適用すると, 誤解を招く分解が生じる理由について考察する。これらの制限は、ステアリングベクトルの解釈にSAEを直接使用するのを妨げる。

関連論文リスト

Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations [0.0]
ステアリング信頼性が行動によって異なる理由と,ベクタートレーニングデータによる影響について検討する。トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
論文参考訳（メタデータ） (2026-02-19T22:37:05Z)
Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文参考訳（メタデータ） (2025-12-30T05:09:11Z)
Enhancing LLM Steering through Sparse Autoencoder-Based Vector Refinement [31.282134977964976]
既存のステアリング手法は、行動情報を学習するために大規模なデータセットに依存している。本稿では,SAAEを利用してステアリングベクトルを意味的に識別・拡張するスパースオートエンコーダ(SAE-RSV)によるステアリングベクトルの精細化について紹介する。本フレームワークでは、まず、SAEが提供するセマンティクスに基づいてタスク関連機能を取り除き、そのセマンティクスの類似性を通じて、小さなデータセットから欠落したタスク関連機能を強化する。
論文参考訳（メタデータ） (2025-09-28T10:49:22Z)
Learning to Steer: Input-dependent Steering for Multimodal LLMs [54.41165851011022]
本稿では,入力固有線形シフトを用いたきめ細かいステアリングについて検討する。我々は、入力固有のステアリングベクトルを予測するために、小さな補助モジュールを訓練する。我々のアプローチはL2S(Learn-to-Steer)と呼ばれ、幻覚を減らし、MLLMの安全性を向上し、他の静的ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-18T10:53:20Z)
On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文参考訳（メタデータ） (2025-06-10T02:55:13Z)
AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文参考訳（メタデータ） (2025-06-08T07:03:28Z)
Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations [4.029252551781513]
ステアリングベクトルを明らかにするための原理的アプローチを提案する。我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
論文参考訳（メタデータ） (2025-05-16T18:23:10Z)
Investigating Generalization of One-shot LLM Steering Vectors [21.2431937128876]
本稿では,1つのトレーニング例に基づいて,勾配降下によるステアリングベクトルの最適化を提案する。得られたベクトルは、複数のモデルにおける安全関連挙動を効果的に媒介する。
論文参考訳（メタデータ） (2025-02-26T06:13:01Z)
AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文参考訳（メタデータ） (2025-01-28T18:51:24Z)
Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。 SAE-TSは,様々なタスクで評価すると,CAAとSAEの特徴的ステアリングよりもコヒーレンスとステアリング効果のバランスが良いことを示す。
論文参考訳（メタデータ） (2024-11-04T15:46:20Z)
A Walsh Hadamard Derived Linear Vector Symbolic Architecture [83.27945465029167]
シンボリックベクトルアーキテクチャ(VSAs)は、ニューロシンボリックAIを開発するためのアプローチである。 HLBは計算効率が良く、従来のVSAタスクで有効であるように設計されている。
論文参考訳（メタデータ） (2024-10-30T03:42:59Z)
Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。分散において、ステアビリティは異なる入力間で高度に変動する。アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文参考訳（メタデータ） (2024-07-17T08:32:03Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers [1.1510009152620668]
トランスフォーマーベースのモデルは、解釈が難しい隠された状態を生成する。隠れた状態を解析し、推論で修正し、動き予測に焦点をあてる。
論文参考訳（メタデータ） (2024-06-17T15:07:55Z)
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文参考訳（メタデータ） (2024-05-28T05:10:40Z)
Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2023-07-16T11:43:04Z)
Online Map Vectorization for Autonomous Driving: A Rasterization Perspective [58.71769343511168]
より優れた感度を有し,現実の自律運転シナリオに適した,新化に基づく評価指標を提案する。また、精度の高い出力に微分可能化を適用し、HDマップの幾何学的監視を行う新しいフレームワークであるMapVR(Map Vectorization via Rasterization)を提案する。
論文参考訳（メタデータ） (2023-06-18T08:51:14Z)
Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-26T09:26:23Z)
Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文参考訳（メタデータ） (2022-05-10T19:04:37Z)
Vector Embeddings with Subvector Permutation Invariance using a Triplet Enhanced Autoencoder [0.0]
本稿では,三重項損失に強化されたオートエンコーダを用いて,構成部分ベクトルの置換によって関連付けられたベクトルのクラスタリングを促進する。次に、これらの不変な埋め込みを、分類やクラスタリングなどの他の問題への入力として使用し、それらの問題における検出精度を向上させる。
論文参考訳（メタデータ） (2020-11-18T21:24:07Z)
Improving Aspect-based Sentiment Analysis with Gated Graph Convolutional Networks and Syntax-based Regulation [89.38054401427173]
Aspect-based Sentiment Analysis (ABSA) は、特定の側面に向けて文の感情極性を予測する。依存関係ツリーは、ABSAの最先端のパフォーマンスを生成するために、ディープラーニングモデルに統合することができる。本稿では,この2つの課題を克服するために,グラフに基づく新しいディープラーニングモデルを提案する。
論文参考訳（メタデータ） (2020-10-26T07:36:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。