論文の概要: Applying sparse autoencoders to unlearn knowledge in language models
- arxiv url: http://arxiv.org/abs/2410.19278v1
- Date: Fri, 25 Oct 2024 03:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:37.196288
- Title: Applying sparse autoencoders to unlearn knowledge in language models
- Title(参考訳): スパースオートエンコーダを言語モデルにおける未学習の知識に適用する
- Authors: Eoin Farrell, Yeu-Tong Lau, Arthur Conmy,
- Abstract要約: 本研究では,スパースオートエンコーダ(SAE)を用いて言語モデルから知識を除去する方法について検討する。
本研究は, 生物学関連SAEの個々の特徴が, 副作用を最小限に抑えることで, 生物学関連知識を未学習に活用できることを実証する。
- 参考スコア(独自算出の注目度): 2.4188584949331053
- License:
- Abstract: We investigate whether sparse autoencoders (SAEs) can be used to remove knowledge from language models. We use the biology subset of the Weapons of Mass Destruction Proxy dataset and test on the gemma-2b-it and gemma-2-2b-it language models. We demonstrate that individual interpretable biology-related SAE features can be used to unlearn biology-related knowledge with minimal side-effects. Our results suggest that negative scaling of feature activations is necessary and that zero ablating features is ineffective. We find that intervening using multiple SAE features simultaneously can unlearn multiple different topics, but with similar or larger unwanted side-effects than the existing Representation Misdirection for Unlearning technique. Current SAE quality or intervention techniques would need to improve to make SAE-based unlearning comparable to the existing fine-tuning based techniques.
- Abstract(参考訳): 本研究では,スパースオートエンコーダ(SAE)を用いて言語モデルから知識を除去する方法について検討する。
Weapons of Mass Destruction Proxyデータセットの生物学サブセットを使用し、gemma-2b-itおよびgemma-2-2b-it言語モデルでテストする。
本研究は, 生物学関連SAEの個々の特徴が, 副作用を最小限に抑えることで, 生物学関連知識を未学習に活用できることを実証する。
以上の結果から,機能アクティベーションの負のスケーリングが不可欠であり,アブラティングがゼロであることが示唆された。
複数のSAE機能を同時に利用すると、複数のトピックを同時に呼び出すことができるが、既存のRepresentation Misdirection for Unlearning技術と同じような、あるいはより大きな副作用が生じる。
現在のSAE品質または介入技術は、SAEベースの未学習を既存の微調整ベースの技術に匹敵するように改善する必要がある。
関連論文リスト
- Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs [18.629717934007513]
SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。
我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2024-06-17T17:35:52Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Factorization Approach for Sparse Spatio-Temporal Brain-Computer
Interface [17.85507707727557]
脳波信号の分解により,スパース条件下での豊かで決定的な特徴を抽出できることを示す。
単腕運動画像データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-06-17T00:30:43Z) - Neurosymbolic hybrid approach to driver collision warning [64.02492460600905]
自律運転システムには2つの主要なアルゴリズムアプローチがある。
ディープラーニングだけでは、多くの分野で最先端の結果が得られています。
しかし、ディープラーニングモデルが機能しない場合、デバッグが非常に難しい場合もあります。
論文 参考訳(メタデータ) (2022-03-28T20:29:50Z) - Multi-class versus One-class classifier in spontaneous speech analysis
oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。
外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T09:57:20Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Improving Self-Organizing Maps with Unsupervised Feature Extraction [0.0]
自己組織化マップ(SOM)は脳にインスパイアされた神経モデルであり、教師なし学習に非常に有望である。
本稿では,生データの代わりに抽出した特徴を用いてSOM性能を向上させることを提案する。
我々は,SOM分類を+6.09%改善し,教師なし画像分類における最先端性能を得る。
論文 参考訳(メタデータ) (2020-09-04T13:19:24Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。