論文の概要: Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs
- arxiv url: http://arxiv.org/abs/2512.05648v1
- Date: Fri, 05 Dec 2025 11:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.009271
- Title: Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs
- Title(参考訳): データフィルタリングを超えて: LLMにおける機能削除のための知識ローカライゼーション
- Authors: Igor Shilov, Alex Cloud, Aryo Pradipta Gema, Jacob Goldman-Wetzler, Nina Panickssery, Henry Sleight, Erik Jones, Cem Anil,
- Abstract要約: グラディエント・ルーティング(Gradient Routing)は、対象とする知識をモデルパラメータの専用サブセットにローカライズすることで、後に取り除くことができる手法である。
SGTM(Selective GradienT Masking)と呼ばれるグラディエントルーティングの改良版について検討する。
バイリンガル合成データセットで訓練されたモデルから1つの言語の知識を取り除き、英語ウィキペディアで訓練されたモデルから生物学の知識を取り除き、SGTMの有効性を2つのアプリケーションで検証する。
- 参考スコア(独自算出の注目度): 12.955964659679672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models increasingly possess capabilities that carry dual-use risks. While data filtering has emerged as a pretraining-time mitigation, it faces significant challenges: labeling whether data is harmful is expensive at scale, and given improving sample efficiency with larger models, even small amounts of mislabeled content could give rise to dangerous capabilities. To address risks associated with mislabeled harmful content, prior work proposed Gradient Routing (Cloud et al., 2024) -- a technique that localizes target knowledge into a dedicated subset of model parameters so they can later be removed. We explore an improved variant of Gradient Routing, which we call Selective GradienT Masking (SGTM), with particular focus on evaluating its robustness to label noise. SGTM zero-masks selected gradients such that target domain examples only update their dedicated parameters. We test SGTM's effectiveness in two applications: removing knowledge of one language from a model trained on a bilingual synthetic dataset, and removing biology knowledge from a model trained on English Wikipedia. In both cases SGTM provides better retain/forget trade-off in the presence of labeling errors compared to both data filtering and a previously proposed instantiation of Gradient Routing. Unlike shallow unlearning approaches that can be quickly undone through fine-tuning, SGTM exhibits strong robustness to adversarial fine-tuning, requiring seven times more fine-tuning steps to reach baseline performance on the forget set compared to a finetuning-based unlearning method (RMU). Our results suggest SGTM provides a promising pretraining-time complement to existing safety mitigations, particularly in settings where label noise is unavoidable.
- Abstract(参考訳): 大規模言語モデルでは、デュアルユースリスクを持つ能力がますます多くなっています。
データフィルタリングは事前トレーニング時の緩和として現れているが、大規模に有害であるかどうかをラベル付けすることや、大規模なモデルでサンプル効率を改善することなど、重大な課題に直面している。
誤ったラベル付けされた有害なコンテンツに関連するリスクに対処するため、事前の作業では、Gradient Routing(Cloud et al , 2024)という、対象とする知識をモデルパラメータの専用サブセットにローカライズして、後に削除できるテクニックを提案した。
我々は、Selective GradienT Masking (SGTM)と呼ばれるグラディエントルーティングの改良版について検討する。
SGTMゼロマスクは、対象のドメイン例が専用パラメータのみを更新するように勾配を選択した。
バイリンガル合成データセットで訓練されたモデルから1つの言語の知識を取り除き、英語ウィキペディアで訓練されたモデルから生物学の知識を取り除き、SGTMの有効性を2つのアプリケーションで検証する。
どちらの場合も、SGTMはデータフィルタリングと以前に提案されたグラディエントルーティングのインスタンス化の両方と比較して、ラベル付けエラーの存在下での保持/忘れのトレードオフが良好である。
微調整によって素早く解き放たれる浅い未学習アプローチとは異なり、SGTMは敵の微調整に対して強い堅牢性を示し、微調整に基づく未学習法(RMU)と比較して、忘れセットのベースライン性能に到達するために7倍の微調整ステップを必要とする。
以上の結果から,SGTMは既存の安全対策,特にラベルノイズを回避できない設定において,有望な事前訓練時補完を提供する可能性が示唆された。
関連論文リスト
- LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - LLM Unlearning using Gradient Ratio-Based Influence Estimation and Noise Injection [0.0]
既存の経験的手法は、ローカライゼーションが不十分なため、不完全な忘れ物や意図しない無関係な知識の劣化をもたらすことが多い。
GRINは、忘れデータの記憶に最も寄与するパラメータを特定するための、勾配比に基づく新しい指標を導入した。
そして、微調整の前にこれらのパラメータに選択的ノイズ注入を行い、モデルユーティリティを維持しながら学習性能を向上させる。
論文 参考訳(メタデータ) (2025-08-08T17:15:32Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - L2B: Learning to Bootstrap Robust Models for Combating Label Noise [52.02335367411447]
本稿では,Learning to Bootstrap (L2B) という,シンプルで効果的な手法を提案する。
モデルは、誤った擬似ラベルの影響を受けずに、自身の予測を使ってブートストラップを行うことができる。
これは、実際の観測されたラベルと生成されたラベル間の重みを動的に調整し、メタラーニングを通じて異なるサンプル間の重みを動的に調整することで実現される。
論文 参考訳(メタデータ) (2022-02-09T05:57:08Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。