論文の概要: Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models
- arxiv url: http://arxiv.org/abs/2405.12522v1
- Date: Tue, 21 May 2024 06:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:08:52.847642
- Title: Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models
- Title(参考訳): 言語モデルにおけるスケーラブルで信頼性の高い回路同定を可能にするスパースオートエンコーダ
- Authors: Charles O'Neill, Thang Bui,
- Abstract要約: 本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces an efficient and robust method for discovering interpretable circuits in large language models using discrete sparse autoencoders. Our approach addresses key limitations of existing techniques, namely computational complexity and sensitivity to hyperparameters. We propose training sparse autoencoders on carefully designed positive and negative examples, where the model can only correctly predict the next token for the positive examples. We hypothesise that learned representations of attention head outputs will signal when a head is engaged in specific computations. By discretising the learned representations into integer codes and measuring the overlap between codes unique to positive examples for each head, we enable direct identification of attention heads involved in circuits without the need for expensive ablations or architectural modifications. On three well-studied tasks - indirect object identification, greater-than comparisons, and docstring completion - the proposed method achieves higher precision and recall in recovering ground-truth circuits compared to state-of-the-art baselines, while reducing runtime from hours to seconds. Notably, we require only 5-10 text examples for each task to learn robust representations. Our findings highlight the promise of discrete sparse autoencoders for scalable and efficient mechanistic interpretability, offering a new direction for analysing the inner workings of large language models.
- Abstract(参考訳): 本稿では,離散スパースオートエンコーダを用いた大規模言語モデルにおける解釈可能な回路の探索手法を提案する。
提案手法は,計算複雑性とハイパーパラメータに対する感度という,既存の手法の限界に対処する。
モデルでは, 正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
学習したアテンションヘッドの出力の表現は、ヘッドが特定の計算に関わったときにシグナルとなると仮定する。
学習した表現を整数符号に分解し、各ヘッドの正の例に特有の符号間の重なりを計測することにより、高価なアブレーションやアーキテクチャ変更を必要とせずに、回路にかかわるアテンションヘッドの直接同定を可能にする。
提案手法は, 直接オブジェクト識別, より高次比較, ドクストリング完了という3つのよく研究されたタスクにおいて, 動作時間を数時間から数秒に短縮しつつ, 現状のベースラインに比べて高い精度とリコールを実現する。
特に、ロバストな表現を学習するためには、各タスクに5から10のテキスト例しか必要としません。
本研究は,大規模言語モデルの内部動作を解析するための新たな方向性を提供するため,スケーラブルで効率的な機械的解釈性を実現するための離散スパースオートエンコーダの約束を強調した。
関連論文リスト
- Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Learning to Skip for Language Modeling [33.51322197222855]
言語モデルの事前訓練では、異なるトークンに可変量の計算を割り当てるべきである。
24個のNLPタスクに対して評価を行い,提案手法が1ショット性能を大幅に向上できることを示した。
論文 参考訳(メタデータ) (2023-11-26T21:45:53Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Do Encoder Representations of Generative Dialogue Models Encode
Sufficient Information about the Task ? [41.36218215755317]
対話モデルの言語理解の健全さを適切に評価するには,人的・自動的な指標によるテキストの評価が不十分であることを示す。
本稿では,対話モデルで一般的に使用される言語エンコーダのエンコーダ表現を評価するための探索タスクを提案する。
論文 参考訳(メタデータ) (2021-06-20T04:52:37Z) - Learning Generalized Relational Heuristic Networks for Model-Agnostic
Planning [29.714818991696088]
本稿では,記号的行動モデルが存在しない場合の一般化を学習するための新しいアプローチを開発する。
データの効率的で一般化可能な学習を容易にするために、抽象状態表現を使用する。
論文 参考訳(メタデータ) (2020-07-10T06:08:28Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。