論文の概要: Measuring and Guiding Monosemanticity
- arxiv url: http://arxiv.org/abs/2506.19382v1
- Date: Tue, 24 Jun 2025 07:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.53315
- Title: Measuring and Guiding Monosemanticity
- Title(参考訳): モノセマンティリティの測定と誘導
- Authors: Ruben Härle, Felix Friedrich, Manuel Brack, Stephan Wäldchen, Björn Deiseroth, Patrick Schramowski, Kristian Kersting,
- Abstract要約: 現在の手法では、特徴表現を確実にローカライズし操作する上で、課題に直面している。
本稿では,学習中にラベル付き概念に潜在表現を条件付ける手法であるガイドスパースオートエンコーダ(G-SAE)を提案する。
G-SAEは単Semanticityを向上するだけでなく、より効果的できめ細かいステアリングを可能にする。
- 参考スコア(独自算出の注目度): 25.40936584258291
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There is growing interest in leveraging mechanistic interpretability and controllability to better understand and influence the internal dynamics of large language models (LLMs). However, current methods face fundamental challenges in reliably localizing and manipulating feature representations. Sparse Autoencoders (SAEs) have recently emerged as a promising direction for feature extraction at scale, yet they, too, are limited by incomplete feature isolation and unreliable monosemanticity. To systematically quantify these limitations, we introduce Feature Monosemanticity Score (FMS), a novel metric to quantify feature monosemanticity in latent representation. Building on these insights, we propose Guided Sparse Autoencoders (G-SAE), a method that conditions latent representations on labeled concepts during training. We demonstrate that reliable localization and disentanglement of target concepts within the latent space improve interpretability, detection of behavior, and control. Specifically, our evaluations on toxicity detection, writing style identification, and privacy attribute recognition show that G-SAE not only enhances monosemanticity but also enables more effective and fine-grained steering with less quality degradation. Our findings provide actionable guidelines for measuring and advancing mechanistic interpretability and control of LLMs.
- Abstract(参考訳): 機械的解釈可能性と制御可能性を活用して、大規模言語モデル(LLM)の内部力学をよりよく理解し、影響を及ぼすことへの関心が高まっている。
しかし、現在の手法は特徴表現を確実にローカライズし操作する上で根本的な課題に直面している。
スパースオートエンコーダ(SAE)は、最近、大規模な機能抽出の有望な方向として登場したが、不完全な機能分離と信頼性の低いモノセマンティリティによって制限されている。
これらの制約を体系的に定量化するために,特徴単意味性スコア(Feature Monosemanticity Score, FMS)を導入する。
これらの知見に基づいて、学習中にラベル付き概念に潜在表現を条件付ける方法であるガイドスパースオートエンコーダ(G-SAE)を提案する。
我々は、潜在空間における目標概念の信頼性のある局所化と非絡み合いが、解釈可能性、行動の検出、制御を改善することを実証する。
具体的には, 毒性検出, 書き込みスタイル識別, およびプライバシ属性認識に関する評価から, G-SAEはモノセマンティリティを向上するだけでなく, 品質劣化の少ないより効果的できめ細かなステアリングを可能にすることが示された。
本研究は, LLMの機械的解釈性および制御を計測し, 促進するための実用的なガイドラインを提供する。
関連論文リスト
- Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Towards LLM Guardrails via Sparse Representation Steering [11.710399901426873]
大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:50:25Z) - SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts [0.6291443816903801]
本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。
本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。
この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
論文 参考訳(メタデータ) (2024-12-01T10:58:53Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。