Fugu-MT 論文翻訳(概要): Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

論文の概要: Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2407.14435v2
Date: Mon, 29 Jul 2024 15:27:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 20:31:59.711907
Title: Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders
Title（参考訳）: Jumping Ahead: JumpReLUスパースオートエンコーダによる再構成精度の向上
Authors: Senthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda,
Abstract要約: 本研究では, Gemma 2 9Bアクティベーションにおいて, 所定の空間レベルにおいて, 最先端の再現忠実性を実現するJumpReLU SAEを紹介する。この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示す。
参考スコア（独自算出の注目度）: 4.4110204540437365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse autoencoders (SAEs) are a promising unsupervised approach for identifying causally relevant and interpretable linear features in a language model's (LM) activations. To be useful for downstream tasks, SAEs need to decompose LM activations faithfully; yet to be interpretable the decomposition must be sparse -- two objectives that are in tension. In this paper, we introduce JumpReLU SAEs, which achieve state-of-the-art reconstruction fidelity at a given sparsity level on Gemma 2 9B activations, compared to other recent advances such as Gated and TopK SAEs. We also show that this improvement does not come at the cost of interpretability through manual and automated interpretability studies. JumpReLU SAEs are a simple modification of vanilla (ReLU) SAEs -- where we replace the ReLU with a discontinuous JumpReLU activation function -- and are similarly efficient to train and run. By utilising straight-through-estimators (STEs) in a principled manner, we show how it is possible to train JumpReLU SAEs effectively despite the discontinuous JumpReLU function introduced in the SAE's forward pass. Similarly, we use STEs to directly train L0 to be sparse, instead of training on proxies such as L1, avoiding problems like shrinkage.
Abstract（参考訳）: スパースオートエンコーダ(SAE)は、言語モデル(LM)アクティベーションにおける因果関係および解釈可能な線形特徴を特定するための有望な教師なしアプローチである。下流タスクに役立てるためには、SAEはLMアクティベーションを忠実に分解する必要がある。本稿では,Gated や TopK SAE などの最近の進歩と比較して,Gemma 2 9B アクティベーションの間隔レベルにおいて,最先端の再現忠実度を達成するJumpReLU SAE を紹介する。また、この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示した。 JumpReLU SAE はバニラ (ReLU) SAE の単純な修正であり、ReLU を不連続のJumpReLU アクティベーション関数に置き換える。直線スルー推定器(STE)を原理的に利用することにより,SAEの前方通過で導入された不連続なJumpReLU関数にもかかわらず,JumpReLU SAEを効果的に訓練できることを示す。同様に、私たちはSTEを使用して、L1のようなプロキシでトレーニングするのではなく、L0を直接スパースにトレーニングします。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文参考訳（メタデータ） (2025-06-08T07:03:28Z)
Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文参考訳（メタデータ） (2025-05-21T23:31:21Z)
Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。 SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文参考訳（メタデータ） (2025-05-16T23:30:17Z)
AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。 AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-04-13T07:39:17Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
Revisiting End-To-End Sparse Autoencoder Training: A Short Finetune Is All You Need [0.0]
スパースオートエンコーダ(SAE)は言語モデルのアクティベーションの解釈に広く用いられている。最近の研究は、KLの発散とMSEの併用でSAEを直接訓練した。そこで本研究では,最後の25Mトレーニングトークンにのみ適用可能なKL+MSEファインタニングステップを提案する。
論文参考訳（メタデータ） (2025-03-21T16:15:49Z)
Low-Rank Adapting Models for Sparse Autoencoders [6.932760557251821]
我々はローランク適応(LoRA)を使用して、以前訓練されたSAEの周りに言語モデル自体を微調整します。本手法は,SAEのGemma Scopeファミリーにおける,SAE空間幅,SAE幅,言語モデルサイズ,LoRAランク,モデル層にまたがって解析を行う。
論文参考訳（メタデータ） (2025-01-31T18:59:16Z)
SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
SALSA: Speedy ASR-LLM Synchronous Aggregation [40.91241351045586]
本研究では,ASRのデコーダ層をLLMデコーダに結合し,両デコーダを同期的に進行させるSALSAを提案する。 FLEURSベンチマークでは,8つの低リソース言語上でSALSAを評価し,最大38%のWER削減を実現した。
論文参考訳（メタデータ） (2024-08-29T14:00:57Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。 SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文参考訳（メタデータ） (2024-04-24T17:47:22Z)
Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition [54.9235160379917]
安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-12-20T06:02:12Z)
ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。 3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-19T16:53:35Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文参考訳（メタデータ） (2022-09-29T16:54:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。