論文の概要: Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models
- arxiv url: http://arxiv.org/abs/2405.12522v1
- Date: Tue, 21 May 2024 06:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:08:52.847642
- Title: Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models
- Title(参考訳): 言語モデルにおけるスケーラブルで信頼性の高い回路同定を可能にするスパースオートエンコーダ
- Authors: Charles O'Neill, Thang Bui,
- Abstract要約: 本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces an efficient and robust method for discovering interpretable circuits in large language models using discrete sparse autoencoders. Our approach addresses key limitations of existing techniques, namely computational complexity and sensitivity to hyperparameters. We propose training sparse autoencoders on carefully designed positive and negative examples, where the model can only correctly predict the next token for the positive examples. We hypothesise that learned representations of attention head outputs will signal when a head is engaged in specific computations. By discretising the learned representations into integer codes and measuring the overlap between codes unique to positive examples for each head, we enable direct identification of attention heads involved in circuits without the need for expensive ablations or architectural modifications. On three well-studied tasks - indirect object identification, greater-than comparisons, and docstring completion - the proposed method achieves higher precision and recall in recovering ground-truth circuits compared to state-of-the-art baselines, while reducing runtime from hours to seconds. Notably, we require only 5-10 text examples for each task to learn robust representations. Our findings highlight the promise of discrete sparse autoencoders for scalable and efficient mechanistic interpretability, offering a new direction for analysing the inner workings of large language models.
- Abstract(参考訳): 本稿では,離散スパースオートエンコーダを用いた大規模言語モデルにおける解釈可能な回路の探索手法を提案する。
提案手法は,計算複雑性とハイパーパラメータに対する感度という,既存の手法の限界に対処する。
モデルでは, 正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
学習したアテンションヘッドの出力の表現は、ヘッドが特定の計算に関わったときにシグナルとなると仮定する。
学習した表現を整数符号に分解し、各ヘッドの正の例に特有の符号間の重なりを計測することにより、高価なアブレーションやアーキテクチャ変更を必要とせずに、回路にかかわるアテンションヘッドの直接同定を可能にする。
提案手法は, 直接オブジェクト識別, より高次比較, ドクストリング完了という3つのよく研究されたタスクにおいて, 動作時間を数時間から数秒に短縮しつつ, 現状のベースラインに比べて高い精度とリコールを実現する。
特に、ロバストな表現を学習するためには、各タスクに5から10のテキスト例しか必要としません。
本研究は,大規模言語モデルの内部動作を解析するための新たな方向性を提供するため,スケーラブルで効率的な機械的解釈性を実現するための離散スパースオートエンコーダの約束を強調した。
関連論文リスト
- On the Query Complexity of Verifier-Assisted Language Generation [35.43462431990329]
本研究では,事前学習した言語モデル生成器を用いて制約付き生成を推論するフレームワークを開発する。
検証者へのアクセスは、難解な問題(情報理論上または計算上)を、難解な問題にレンダリングすることができる。
トークンワイド・リジェクション・サンプリングのような単純なアルゴリズムでさえ、検証器へのアクセスによる大きなメリットを享受できることを示す。
論文 参考訳(メタデータ) (2025-02-17T18:46:32Z) - Detecting Memorization in Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。
従来の暗記検出方法は出力確率や損失関数に依存している。
LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T00:17:43Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Learning to Skip for Language Modeling [33.51322197222855]
言語モデルの事前訓練では、異なるトークンに可変量の計算を割り当てるべきである。
24個のNLPタスクに対して評価を行い,提案手法が1ショット性能を大幅に向上できることを示した。
論文 参考訳(メタデータ) (2023-11-26T21:45:53Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Do Encoder Representations of Generative Dialogue Models Encode
Sufficient Information about the Task ? [41.36218215755317]
対話モデルの言語理解の健全さを適切に評価するには,人的・自動的な指標によるテキストの評価が不十分であることを示す。
本稿では,対話モデルで一般的に使用される言語エンコーダのエンコーダ表現を評価するための探索タスクを提案する。
論文 参考訳(メタデータ) (2021-06-20T04:52:37Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。