論文の概要: Enabling Precise Topic Alignment in Large Language Models Via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2506.12576v2
- Date: Sat, 28 Jun 2025 17:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.737848
- Title: Enabling Precise Topic Alignment in Large Language Models Via Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いた大規模言語モデルにおける高精度トピックアライメントの実現
- Authors: Ananya Joshi, Celia Cintas, Skyler Speakman,
- Abstract要約: 大規模言語モデル層に適用されるスパースオートエンコーダ(SAE)は、解釈可能な概念に対応するニューロンを持つ。
提案手法は,SAEの観測および修正特性を利用して,任意のトピックのアライメントを可能にする。
このアプローチのアライメント能力は、Amazonのレビュー、メディカル、Sycophancyなど、さまざまなパブリックトピックデータセットに基づいて評価する。
- 参考スコア(独自算出の注目度): 3.1596339090063696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work shows that Sparse Autoencoders (SAE) applied to large language model (LLM) layers have neurons corresponding to interpretable concepts. These SAE neurons can be modified to align generated outputs, but only towards pre-identified topics and with some parameter tuning. Our approach leverages the observational and modification properties of SAEs to enable alignment for any topic. This method 1) scores each SAE neuron by its semantic similarity to an alignment text and uses them to 2) modify SAE-layer-level outputs by emphasizing topic-aligned neurons. We assess the alignment capabilities of this approach on diverse public topic datasets including Amazon reviews, Medicine, and Sycophancy, across the currently available open-source LLMs and SAE pairs (GPT2 and Gemma) with multiple SAEs configurations. Experiments aligning to medical prompts reveal several benefits over fine-tuning, including increased average language acceptability (0.25 vs. 0.5), reduced training time across multiple alignment topics (333.6s vs. 62s), and acceptable inference time for many applications (+0.00092s/token). Our open-source code is available at github.com/IBM/sae-steering.
- Abstract(参考訳): 最近の研究は、大言語モデル(LLM)層に適用されたスパースオートエンコーダ(SAE)が、解釈可能な概念に対応するニューロンを持つことを示している。
これらのSAEニューロンは、生成された出力を整列するために修正できるが、事前に特定されたトピックとパラメータチューニングのみに限られる。
提案手法は,SAEの観測および修正特性を利用して,任意のトピックのアライメントを可能にする。
この方法
1)各SAEニューロンをアライメントテキストと意味的類似性でスコアし、それらを使用する。
2) SAE-layer-level outputs by em emphasissizing topic-aligned neurons。
このアプローチのアライメント能力は、Amazon Review、Message、Sycophancyなど、現在利用可能なオープンソースLLMとSAEペア(GPT2とGemma)にまたがって、複数のSAE設定を備えたさまざまなパブリックトピックデータセットで評価する。
医学的プロンプトに適合する実験では、平均的な言語アクセシビリティ(0.25対0.5)の増加、複数のアライメントトピックにわたるトレーニング時間(333.6s vs. 62s)の短縮、多くのアプリケーションで許容される推論時間(+0.00092s/token)など、微調整よりもいくつかの利点がある。
オープンソースコードはgithub.com/IBM/sae-steeringで利用可能です。
関連論文リスト
- GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment [18.256369876037883]
本稿では,エンコーダ・デコーダアーキテクチャに基づく文脈圧縮フレームワークであるGMSAを紹介する。
GMSAは入力シーケンスの長さと冗長な情報を減らす。
エンドツーエンドの推論で約2倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2025-05-18T03:21:30Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。