Fugu-MT 論文翻訳(概要): Applying sparse autoencoders to unlearn knowledge in language models

論文の概要: Applying sparse autoencoders to unlearn knowledge in language models

arxiv url: http://arxiv.org/abs/2410.19278v1
Date: Fri, 25 Oct 2024 03:21:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.260963
Title: Applying sparse autoencoders to unlearn knowledge in language models
Title（参考訳）: スパースオートエンコーダを言語モデルにおける未学習の知識に適用する
Authors: Eoin Farrell, Yeu-Tong Lau, Arthur Conmy,
Abstract要約: 本研究では,スパースオートエンコーダ(SAE)を用いて言語モデルから知識を除去する方法について検討する。本研究は, 生物学関連SAEの個々の特徴が, 副作用を最小限に抑えることで, 生物学関連知識を未学習に活用できることを実証する。
参考スコア（独自算出の注目度）: 2.4188584949331053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate whether sparse autoencoders (SAEs) can be used to remove knowledge from language models. We use the biology subset of the Weapons of Mass Destruction Proxy dataset and test on the gemma-2b-it and gemma-2-2b-it language models. We demonstrate that individual interpretable biology-related SAE features can be used to unlearn biology-related knowledge with minimal side-effects. Our results suggest that negative scaling of feature activations is necessary and that zero ablating features is ineffective. We find that intervening using multiple SAE features simultaneously can unlearn multiple different topics, but with similar or larger unwanted side-effects than the existing Representation Misdirection for Unlearning technique. Current SAE quality or intervention techniques would need to improve to make SAE-based unlearning comparable to the existing fine-tuning based techniques.
Abstract（参考訳）: 本研究では,スパースオートエンコーダ(SAE)を用いて言語モデルから知識を除去する方法について検討する。 Weapons of Mass Destruction Proxyデータセットの生物学サブセットを使用し、gemma-2b-itおよびgemma-2-2b-it言語モデルでテストする。本研究は, 生物学関連SAEの個々の特徴が, 副作用を最小限に抑えることで, 生物学関連知識を未学習に活用できることを実証する。以上の結果から,機能アクティベーションの負のスケーリングが不可欠であり,アブラティングがゼロであることが示唆された。複数のSAE機能を同時に利用すると、複数のトピックを同時に呼び出すことができるが、既存のRepresentation Misdirection for Unlearning技術と同じような、あるいはより大きな副作用が生じる。現在のSAE品質または介入技術は、SAEベースの未学習を既存の微調整ベースの技術に匹敵するように改善する必要がある。

関連論文リスト

Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文参考訳（メタデータ） (2025-05-21T23:31:21Z)
UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。 UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T15:53:28Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文参考訳（メタデータ） (2024-11-11T10:37:11Z)
Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。 textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文参考訳（メタデータ） (2024-11-02T11:42:23Z)
Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。 SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文参考訳（メタデータ） (2024-10-17T17:56:01Z)
Can sparse autoencoders make sense of gene expression latent variable models? [0.0]
この研究は、複雑な、高次元の生物学的データへの埋め込みを分解するためのSAEの可能性を探るものである。事前訓練された単一細胞モデルからの埋め込みへの応用は、SAEが重要な生物学的プロセスを見つけ、管理できることを示している。 scFeatureLensは、SAEの特徴と遺伝子セットから生物学的概念をリンクするための自動解釈可能性アプローチである。
論文参考訳（メタデータ） (2024-10-15T10:16:01Z)
Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs [18.629717934007513]
SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
論文参考訳（メタデータ） (2024-06-17T17:35:52Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
Neurosymbolic hybrid approach to driver collision warning [64.02492460600905]
自律運転システムには2つの主要なアルゴリズムアプローチがある。ディープラーニングだけでは、多くの分野で最先端の結果が得られています。しかし、ディープラーニングモデルが機能しない場合、デバッグが非常に難しい場合もあります。
論文参考訳（メタデータ） (2022-03-28T20:29:50Z)
Multi-class versus One-class classifier in spontaneous speech analysis oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文参考訳（メタデータ） (2022-03-21T09:57:20Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Improving Self-Organizing Maps with Unsupervised Feature Extraction [0.0]
自己組織化マップ(SOM)は脳にインスパイアされた神経モデルであり、教師なし学習に非常に有望である。本稿では,生データの代わりに抽出した特徴を用いてSOM性能を向上させることを提案する。我々は,SOM分類を+6.09%改善し,教師なし画像分類における最先端性能を得る。
論文参考訳（メタデータ） (2020-09-04T13:19:24Z)
Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文参考訳（メタデータ） (2020-07-19T07:24:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。