論文の概要: Interpretable Embeddings with Sparse Autoencoders: A Data Analysis Toolkit
- arxiv url: http://arxiv.org/abs/2512.10092v1
- Date: Wed, 10 Dec 2025 21:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.068265
- Title: Interpretable Embeddings with Sparse Autoencoders: A Data Analysis Toolkit
- Title(参考訳): スパースオートエンコーダを用いた解釈可能な埋め込み:データ解析ツールキット
- Authors: Nick Jiang, Xiaoqing Sun, Lisa Dunlap, Lewis Smith, Neel Nanda,
- Abstract要約: 大規模テキストコーパスの分析は、機械学習における中核的な課題である。
スパースオートエンコーダ(SAE)を用いてSAE埋め込みを作成する。
SAE 埋込みは LLM よりもコスト効率が高く信頼性が高く,高密度埋込みよりも制御性が高いことを示す。
- 参考スコア(独自算出の注目度): 16.056849135589324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing large-scale text corpora is a core challenge in machine learning, crucial for tasks like identifying undesirable model behaviors or biases in training data. Current methods often rely on costly LLM-based techniques (e.g. annotating dataset differences) or dense embedding models (e.g. for clustering), which lack control over the properties of interest. We propose using sparse autoencoders (SAEs) to create SAE embeddings: representations whose dimensions map to interpretable concepts. Through four data analysis tasks, we show that SAE embeddings are more cost-effective and reliable than LLMs and more controllable than dense embeddings. Using the large hypothesis space of SAEs, we can uncover insights such as (1) semantic differences between datasets and (2) unexpected concept correlations in documents. For instance, by comparing model responses, we find that Grok-4 clarifies ambiguities more often than nine other frontier models. Relative to LLMs, SAE embeddings uncover bigger differences at 2-8x lower cost and identify biases more reliably. Additionally, SAE embeddings are controllable: by filtering concepts, we can (3) cluster documents along axes of interest and (4) outperform dense embeddings on property-based retrieval. Using SAE embeddings, we study model behavior with two case studies: investigating how OpenAI model behavior has changed over time and finding "trigger" phrases learned by Tulu-3 (Lambert et al., 2024) from its training data. These results position SAEs as a versatile tool for unstructured data analysis and highlight the neglected importance of interpreting models through their data.
- Abstract(参考訳): 大規模テキストコーパスの分析は、機械学習における中核的な課題であり、望ましくないモデルの振る舞いやトレーニングデータにおけるバイアスの特定といったタスクに不可欠である。
現在の手法は、しばしば、利害関係の制御に欠ける、コストのかかるLCMベースの技術(例えばデータセットの差分を注釈付けする)や密な埋め込みモデル(例えばクラスタリング)に依存している。
そこで本稿では,SAEの埋め込みにスパースオートエンコーダ(SAE)を用いることで,次元を解釈可能な概念にマッピングする表現を提案する。
4つのデータ解析タスクを通して, SAE 埋め込みは LLM よりもコスト効率が高く, 信頼性が高く, 密着型埋め込みよりも制御性が高いことを示す。
SAEの大規模な仮説空間を用いて,(1)データセット間の意味的差異や(2)文書における予期せぬ概念相関などの知見を明らかにすることができる。
例えば、モデル応答を比較することで、Grok-4は他の9つのフロンティアモデルよりも曖昧性を明らかにすることが分かる。
LLMとは対照的に、SAE埋め込みは2~8倍のコストで大きな違いを発見し、バイアスをより確実に識別する。
さらに、SAEの埋め込みは制御可能である: 概念をフィルタリングすることで、関心の軸に沿って文書をクラスタ化し、(4)プロパティベースの検索において密埋め込みよりも優れた結果が得られる。
SAE埋め込みを用いて,OpenAIモデルの動作が時間とともにどのように変化したか,およびトレーニングデータからTulu-3(Lambert et al , 2024)が学習した「トリガー」フレーズの発見という2つの事例研究を行った。
これらの結果は、SAEを非構造化データ解析の汎用ツールとして位置づけ、データを通してモデルを解釈することの無視された重要性を強調している。
関連論文リスト
- GPT and Prejudice: A Sparse Approach to Understanding Learned Representations in Large Language Models [0.0]
大規模言語モデル(LLM)は、大規模で未処理のコーパスでますます訓練されている。
本研究では, モデル動作だけでなく, 学習データに埋め込まれたより深い構造, テーマ, バイアスの解釈を可能にする。
我々は、社会構造や物語パターンに富んだコーパスであるジェーン・オーステンの小説にのみ焦点をあてて、GPTスタイルのトランスフォーマーモデルを訓練する。
論文 参考訳(メタデータ) (2025-09-24T11:10:16Z) - ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Sparse Autoencoders Trained on the Same Data Learn Different Features [0.7234862895932991]
スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
論文 参考訳(メタデータ) (2025-01-28T01:24:16Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。