論文の概要: Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2601.02978v1
- Date: Tue, 06 Jan 2026 12:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.929335
- Title: Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders
- Title(参考訳): LLMにおけるメカニスティックノブ:スパースオートエンコーダによる高次セマンティック特徴の検索とステアリング
- Authors: Ruikang Zhang, Shuo Wang, Qi Su,
- Abstract要約: 意味論的に解釈可能な内部特徴の検索とステアリングのためのスパースオートエンコーダベースのフレームワークを提案する。
本研究では,ビッグファイブの性格特性をケーススタディとして用いて,モデル行動の正確かつ双方向なステアリングを可能にすることを実証する。
- 参考スコア(独自算出の注目度): 8.188989044347595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in Mechanistic Interpretability (MI) has enabled the identification and intervention of internal features in Large Language Models (LLMs). However, a persistent challenge lies in linking such internal features to the reliable control of complex, behavior-level semantic attributes in language generation. In this paper, we propose a Sparse Autoencoder-based framework for retrieving and steering semantically interpretable internal features associated with high-level linguistic behaviors. Our method employs a contrastive feature retrieval pipeline based on controlled semantic oppositions, combing statistical activation analysis and generation-based validation to distill monosemantic functional features from sparse activation spaces. Using the Big Five personality traits as a case study, we demonstrate that our method enables precise, bidirectional steering of model behavior while maintaining superior stability and performance compared to existing activation steering methods like Contrastive Activation Addition (CAA). We further identify an empirical effect, which we term Functional Faithfulness, whereby intervening on a specific internal feature induces coherent and predictable shifts across multiple linguistic dimensions aligned with the target semantic attribute. Our findings suggest that LLMs internalize deeply integrated representations of high-order concepts, and provide a novel, robust mechanistic path for the regulation of complex AI behaviors.
- Abstract(参考訳): 近年のMI(Mechanistic Interpretability)は,Large Language Models(LLMs)の内部特徴の識別と介入を可能にしている。
しかし、永続的な課題は、言語生成における複雑な振る舞いレベルのセマンティック属性の信頼性の高い制御にそのような内部機能をリンクすることである。
本稿では,高レベルの言語行動に関連する意味論的解釈可能な内部特徴の検索とステアリングを目的としたスパースオートエンコーダに基づくフレームワークを提案する。
本手法では, 統計的アクティベーション解析と生成に基づく検証を併用し, スパースアクティベーション空間から単意味機能特徴を抽出する。
本研究では, モデル行動の正確かつ双方向なステアリングを可能にするとともに, コントラシブ・アクティベーション・アダクション (CAA) のような既存のアクティベーション・ステアリング法と比較して, 安定性と性能を保ちながら, モデル行動の正確かつ双方向なステアリングを可能にすることを実証した。
さらに、特定の内部的特徴に介入することで、目的のセマンティック属性と整合した複数の言語的次元のコヒーレントかつ予測可能なシフトを誘導する、機能的信条という経験的効果を同定する。
以上の結果から,LLMは高次概念の深い統合表現を内包し,複雑なAI行動の制御のための新しい,堅牢な機械的経路を提供する可能性が示唆された。
関連論文リスト
- Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - InverseScope: Scalable Activation Inversion for Interpreting Large Language Models [5.670123459649656]
InverseScopeは、入力インバージョンを介して神経活性化を解釈するための仮定ライトでスケーラブルなフレームワークである。
高次元空間におけるサンプリングの非効率性に対処するために,新しい条件生成アーキテクチャを提案する。
また,サンプル入力上で計算された特徴整合率を用いて,解釈可能性仮説をテストする定量的評価プロトコルを導入する。
論文 参考訳(メタデータ) (2025-06-09T03:59:28Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - The Complexity of Learning Sparse Superposed Features with Feedback [2.4140387101794283]
モデルの基本となる学習特徴がエージェントからのフィードバックによって効率的に検索できるかどうかを検討する。
スパース設定で特徴行列を学習する際のフィードバックの複雑さを解析する。
この結果は,エージェントがアクティベーションを構築し,スパースシナリオにおいて強い上限を示すことを許された場合に,厳密な境界を確立する。
論文 参考訳(メタデータ) (2025-02-08T01:54:23Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。