論文の概要: TopK Language Models
- arxiv url: http://arxiv.org/abs/2506.21468v1
- Date: Thu, 26 Jun 2025 16:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.203382
- Title: TopK Language Models
- Title(参考訳): TopK言語モデル
- Authors: Ryosuke Takahashi, Tatsuro Inaba, Kentaro Inui, Benjamin Heinzerling,
- Abstract要約: TopK LMは、モデルサイズ、計算効率、解釈可能性の間の良好なトレードオフを提供する。
これらの機能はTopK LMsを安定させ、言語モデルがどのように概念を学び、表現するかを理解するための信頼性の高いツールにする。
- 参考スコア(独自算出の注目度): 23.574227495324568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) have become an important tool for analyzing and interpreting the activation space of transformer-based language models (LMs). However, SAEs suffer several shortcomings that diminish their utility and internal validity. Since SAEs are trained post-hoc, it is unclear if the failure to discover a particular concept is a failure on the SAE's side or due to the underlying LM not representing this concept. This problem is exacerbated by training conditions and architecture choices affecting which features an SAE learns. When tracing how LMs learn concepts during training, the lack of feature stability also makes it difficult to compare SAEs features across different checkpoints. To address these limitations, we introduce a modification to the transformer architecture that incorporates a TopK activation function at chosen layers, making the model's hidden states equivalent to the latent features of a TopK SAE. This approach eliminates the need for post-hoc training while providing interpretability comparable to SAEs. The resulting TopK LMs offer a favorable trade-off between model size, computational efficiency, and interpretability. Despite this simple architectural change, TopK LMs maintain their original capabilities while providing robust interpretability benefits. Our experiments demonstrate that the sparse representations learned by TopK LMs enable successful steering through targeted neuron interventions and facilitate detailed analysis of neuron formation processes across checkpoints and layers. These features make TopK LMs stable and reliable tools for understanding how language models learn and represent concepts, which we believe will significantly advance future research on model interpretability and controllability.
- Abstract(参考訳): スパースオートエンコーダ (SAE) はトランスフォーマーベース言語モデル (LM) のアクティベーション空間を解析・解釈するための重要なツールとなっている。
しかし、SAEは実用性と内部の妥当性を低下させるいくつかの欠点に悩まされている。
SAEはポストホックで訓練されているため、特定の概念を発見できなかったことがSAE側の失敗なのか、あるいはその概念を表現していない基盤となるLMのためなのかは不明である。
この問題は、SAEが学習する特徴に影響を及ぼすトレーニング条件とアーキテクチャの選択によって悪化する。
LMがトレーニング中に概念を学習する方法をトレースする場合、機能安定性の欠如は、異なるチェックポイント間でSAEの機能を比較するのを難しくする。
これらの制限に対処するため、選択した層にTopKアクティベーション関数を組み込んだトランスフォーマーアーキテクチャを改良し、TopK SAEの潜伏した特徴と同等の隠れ状態にする。
このアプローチは、SAEに匹敵する解釈性を提供しながら、ポストホックトレーニングの必要性を排除する。
結果として得られるTopK LMは、モデルサイズ、計算効率、解釈可能性の間の良好なトレードオフを提供する。
この単純なアーキテクチャ変更にもかかわらず、TopK LMは、堅牢な解釈可能性の利点を提供しながら、元の能力を維持している。
実験により,TopK LM が学習したスパース表現により,標的ニューロンの介入によるステアリングが成功し,チェックポイントや層間におけるニューロン形成過程の詳細な解析が容易であることが示された。
これらの特徴により、TopK LMsは言語モデルがどのように概念を学習し、表現するかを理解するための安定かつ信頼性の高いツールとなり、モデル解釈可能性と制御可能性に関する今後の研究を大きく前進させると我々は信じている。
関連論文リスト
- Model Unlearning via Sparse Autoencoder Subspace Guided Projections [34.47648738350138]
大きな言語モデル(LLM)は大量の情報を格納するので、強力なプライバシと安全性の懸念が高まる。
グラデーションベースの微調整やモデル編集からスパースオートエンコーダのステアリングまで、既存の未学習戦略は解釈性に欠けるか、敵のプロンプトに対して堅牢な防御を提供しない。
我々は,SAE機能を活用した新たなフレームワークであるSAE-Guided Subspace Projection Unlearning (SSPU)を提案する。
論文 参考訳(メタデータ) (2025-05-30T10:07:52Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Steering CLIP's vision transformer with sparse autoencoders [20.63298721008492]
私たちは、CLIPの視覚変換器でスパースオートエンコーダ(SAE)を訓練し、視覚と言語処理の主な違いを明らかにする。
10~15%のニューロンと特徴がステアリング可能であり、SAEはベースモデルよりも数千のステアリング可能な特徴を提供する。
論文 参考訳(メタデータ) (2025-04-11T17:56:09Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Understanding the Role of Equivariance in Self-supervised Learning [51.56331245499712]
同変自己教師学習(E-SSL)は、拡張に注意する機能を学ぶ。
我々は、同変タスクと分類タスクの相乗効果を生成するE-SSLにおける重要な説明アウト効果を同定する。
E-SSLの実用設計の原則をいくつか明らかにする。
論文 参考訳(メタデータ) (2024-11-10T16:09:47Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs [47.14410674505256]
マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究では,特定のトランスフォーマーヘッドが特定の構文的関係に焦点をあてる,アクセシビリティの自然発生特性である構文的注意構造(SAS)について検討する。
学習中にSASを操作することでSASの因果的役割を解明し,SASが文法的能力の発達に必要であることを示す。
論文 参考訳(メタデータ) (2023-09-13T20:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。