論文の概要: Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
- arxiv url: http://arxiv.org/abs/2408.05147v1
- Date: Fri, 9 Aug 2024 16:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:16:47.017368
- Title: Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
- Title(参考訳): Gemma Scope:Gemma 2であらゆる場所でオープンスパースオートエンコーダ
- Authors: Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワークの潜在表現を解釈可能な特徴に学習するための教師なしの方法である。
本研究では,JumpReLU SAEのオープンスイートであるGemma Scopeを紹介した。
各SAEの品質を標準メトリクスで評価し、その結果を公表する。
- 参考スコア(独自算出の注目度): 11.169778211035826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are an unsupervised method for learning a sparse decomposition of a neural network's latent representations into seemingly interpretable features. Despite recent excitement about their potential, research applications outside of industry are limited by the high cost of training a comprehensive suite of SAEs. In this work, we introduce Gemma Scope, an open suite of JumpReLU SAEs trained on all layers and sub-layers of Gemma 2 2B and 9B and select layers of Gemma 2 27B base models. We primarily train SAEs on the Gemma 2 pre-trained models, but additionally release SAEs trained on instruction-tuned Gemma 2 9B for comparison. We evaluate the quality of each SAE on standard metrics and release these results. We hope that by releasing these SAE weights, we can help make more ambitious safety and interpretability research easier for the community. Weights and a tutorial can be found at https://huggingface.co/google/gemma-scope and an interactive demo can be found at https://www.neuronpedia.org/gemma-scope
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの潜在表現のスパース分解を、一見解釈可能な特徴に学習するための教師なしの方法である。
彼らの可能性に対する近年の興奮にもかかわらず、業界外の研究応用は、SAEの総合的なスイートをトレーニングするコストによって制限されている。
本稿では,JumpReLU SAEのオープンスイートであるGemma Scopeを紹介し,Gemma 2 2Bおよび9BのサブレイヤおよびGemma 2 27Bベースモデルの選択レイヤをトレーニングした。
主に Gemma 2 の事前訓練モデルで SAE を訓練するが、さらに Gemma 2 9B で訓練された SAE を比較のためにリリースする。
各SAEの品質を標準メトリクスで評価し、その結果を公表する。
私たちは、これらのSAEウェイトをリリースすることによって、コミュニティにとってより野心的な安全性と解釈可能性の研究を容易にするのに役立つことを願っています。
重量とチュートリアルはhttps://huggingface.co/google/gemma-scopeで、インタラクティブなデモはhttps://www.neuronpedia.org/gemma-scopeで見ることができる。
関連論文リスト
- Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Evaluating Open-Source Sparse Autoencoders on Disentangling Factual Knowledge in GPT-2 Small [6.306964287762374]
我々は、GPT-2小の隠れ表現を訓練したSAEが、その都市がどの国にあり、どの大陸にあるかを知るための一連の特徴を持っているかどうかを評価する。
以上の結果から,SAEはニューロンベースラインに到達するのに苦慮しており,DASスカイラインに近づかないことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-05T18:00:37Z) - Gemma 2: Improving Open Language Models at a Practical Size [118.04200128754249]
Gemma 2は、軽量で最先端のオープンモデルであるGemmaファミリの新しい追加である。
我々はTransformerアーキテクチャにいくつかの技術的変更を適用し、例えば、ローカル・グローバル・アテンションをインターリーブする。
結果として得られたモデルは、そのサイズで最高のパフォーマンスを提供し、さらに2~3倍の大きさのモデルに対して、競争力のある代替手段を提供する。
論文 参考訳(メタデータ) (2024-07-31T19:13:07Z) - Linear-Complexity Self-Supervised Learning for Speech Processing [17.360059094663182]
自己教師付き学習(SSL)モデルは、通常、数十のハイエンドGPUで数週間の事前トレーニングを必要とする。
本稿では,SSLのための線形複雑コンテキストエンコーダを初めて検討する。
論文 参考訳(メタデータ) (2024-07-18T10:34:33Z) - Gemma: Open Models Based on Gemini Research and Technology [128.57714343844074]
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-13T06:59:16Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Weakly-Supervised Action Localization with Expectation-Maximization
Multi-Instance Learning [82.41415008107502]
弱教師付きアクションローカライゼーションでは、ビデオレベルアクションラベルのみを与えられたビデオ内のアクションセグメントをローカライズするモデルをトレーニングする必要がある。
バッグ(ビデオ)には複数のインスタンス(アクションセグメント)が含まれている。
我々のEM-MILアプローチは、学習目標とMIL仮定の両方をより正確にモデル化することを示します。
論文 参考訳(メタデータ) (2020-03-31T23:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。