論文の概要: Scaling and evaluating sparse autoencoders
- arxiv url: http://arxiv.org/abs/2406.04093v1
- Date: Thu, 6 Jun 2024 14:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:40:14.323184
- Title: Scaling and evaluating sparse autoencoders
- Title(参考訳): スパースオートエンコーダのスケーリングと評価
- Authors: Leo Gao, Tom Dupré la Tour, Henk Tillman, Gabriel Goh, Rajan Troll, Alec Radford, Ilya Sutskever, Jan Leike, Jeffrey Wu,
- Abstract要約: k-スパースオートエンコーダを用いたオートエンコーダスケーリングの特性について検討した。
オートエンコーダのサイズと空間性に関して、クリーンなスケーリング法則を見つけます。
我々は、400億トークンのGPT-4アクティベーションに対して1600万の潜伏オートエンコーダをトレーニングする。
- 参考スコア(独自算出の注目度): 37.72612863761559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since language models learn many concepts, autoencoders need to be very large to recover all relevant features. However, studying the properties of autoencoder scaling is difficult due to the need to balance reconstruction and sparsity objectives and the presence of dead latents. We propose using k-sparse autoencoders [Makhzani and Frey, 2013] to directly control sparsity, simplifying tuning and improving the reconstruction-sparsity frontier. Additionally, we find modifications that result in few dead latents, even at the largest scales we tried. Using these techniques, we find clean scaling laws with respect to autoencoder size and sparsity. We also introduce several new metrics for evaluating feature quality based on the recovery of hypothesized features, the explainability of activation patterns, and the sparsity of downstream effects. These metrics all generally improve with autoencoder size. To demonstrate the scalability of our approach, we train a 16 million latent autoencoder on GPT-4 activations for 40 billion tokens. We release training code and autoencoders for open-source models, as well as a visualizer.
- Abstract(参考訳): スパースオートエンコーダは、スパースボトルネック層からアクティベーションを再構築することにより、言語モデルから解釈可能な特徴を抽出するための有望な教師なしアプローチを提供する。
言語モデルは多くの概念を学習するので、オートエンコーダは関連するすべての機能を回復するために非常に大きい必要がある。
しかし, 自己エンコーダのスケーリング特性の研究は, 復元目標と疎性目標のバランスと死潜者の存在のバランスを取る必要があるため困難である。
我々は、k-スパースオートエンコーダ(Makhzani and Frey, 2013)を用いて、空間を直接制御し、チューニングを簡素化し、再構成・スパーシティフロンティアを改善することを提案する。
さらに、私たちが試した最大のスケールでさえ、死んだ潜伏者はほとんどいないという修正が見つかりました。
これらの手法を用いて、オートエンコーダのサイズと空間性に関してクリーンなスケーリング法則を求める。
また、仮説化された特徴の回復、アクティベーションパターンの説明可能性、下流効果の空間性に基づく特徴量評価のための新しい指標をいくつか導入する。
これらのメトリクスはすべて、オートエンコーダのサイズによって改善される。
提案手法のスケーラビリティを実証するため,4000億トークンのGPT-4アクティベーションに対して,1600万の遅延オートエンコーダをトレーニングした。
オープンソースモデルのためのトレーニングコードとオートエンコーダ、ビジュアライザをリリースしています。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Defending Variational Autoencoders from Adversarial Attacks with MCMC [74.36233246536459]
変分オートエンコーダ(VAE)は、様々な領域で使用される深部生成モデルである。
以前の研究が示すように、視覚的にわずかに修正された入力に対する予期せぬ潜在表現と再構成を生成するために、VAEを簡単に騙すことができる。
本稿では, 敵攻撃構築のための目的関数について検討し, モデルのロバスト性を評価する指標を提案し, 解決策を提案する。
論文 参考訳(メタデータ) (2022-03-18T13:25:18Z) - Disentangling Autoencoders (DAE) [0.0]
本稿では,グループ理論における対称性変換の原理に基づく,オートエンコーダのための新しいフレームワークを提案する。
我々は,このモデルが正規化不要なオートエンコーダに基づく非絡み合い学習の新たな分野を導くと信じている。
論文 参考訳(メタデータ) (2022-02-20T22:59:13Z) - Improved Training of Sparse Coding Variational Autoencoder via Weight
Normalization [0.0]
我々は最近提案されたsparse coding variational autoencoder (svae) に着目した。
単位ノルムへのフィルタの投影がアクティブフィルタの数を劇的に増加させることを示す。
本結果は,データから疎表現を学習する上での重み正規化の重要性を強調した。
論文 参考訳(メタデータ) (2021-01-23T08:07:20Z) - A New Modal Autoencoder for Functionally Independent Feature Extraction [6.690183908967779]
新しいモーダルオートエンコーダ (MAE) は、読み出し重み行列の列をオトゴゴナライズすることによって提案される。
結果は、MNIST変異とUSPS分類ベンチマークスイートで検証された。
新しいMAEは、オートエンコーダのための非常にシンプルなトレーニング原則を導入し、ディープニューラルネットワークの事前トレーニングを約束できる。
論文 参考訳(メタデータ) (2020-06-25T13:25:10Z) - Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。
エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする
我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文 参考訳(メタデータ) (2020-02-07T17:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。