論文の概要: Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions
- arxiv url: http://arxiv.org/abs/2509.25973v1
- Date: Tue, 30 Sep 2025 09:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.077171
- Title: Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions
- Title(参考訳): 検索抽出による応答の補正によるスケーラブルかつロバストなLLMアンラーニング
- Authors: Junbeom Kim, Kyuyoung Kim, Jihoon Tack, Dongha Lim, Jinwoo Shin,
- Abstract要約: Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
- 参考スコア(独自算出の注目度): 49.55618517046225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models trained on web-scale corpora risk memorizing and exposing sensitive information, prompting the need for effective machine unlearning. Prior methods mainly focus on input queries to suppress sensitive outputs, yet this often fails to eliminate the underlying knowledge and limits scalability. To address this, we propose Corrective Unlearning with Retrieved Exclusions (CURE), a novel unlearning framework that verifies model outputs for leakage and revises them into safe responses. Specifically, CURE employs a lightweight corrector that is applied to the original model to verify whether outputs contain target knowledge and to rewrite them if any leakage is detected. To efficiently handle large-scale unlearning requests, CURE retrieves unlearning targets that are relevant to the initial response and provides them as in-context references to the corrector for detection and conditional revision. By leveraging this retrieval augmentation, the corrector can adapt to new unlearning requests without additional training. Extensive evaluations demonstrate that CURE substantially reduces information leakage, even from indirect queries where prior works fall short, while maintaining response quality and general utility. Moreover, it demonstrates robustness under continual unlearning scenarios, making it practical for real-world applications.
- Abstract(参考訳): Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する訓練された言語モデルは、効果的な機械学習の必要性を喚起する。
従来の手法は主にインプットクエリに焦点を合わせ、機密性の高い出力を抑えるが、これは基礎となる知識を排除しスケーラビリティを制限するのに失敗することが多い。
そこで本研究では,リークに対するモデル出力を検証し,安全な応答に修正する,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
具体的には、CUREは、元のモデルに適用された軽量の修正器を使用して、出力が対象の知識を含むかどうかを確認し、リークが検出された場合、それらを書き換える。
大規模な未学習要求を効率的に処理するために、CUREは初期応答に関連する未学習ターゲットを検索し、検出および条件修正のための修正者へのコンテキスト内参照として提供する。
この検索強化を活用することで、リフレクタは追加のトレーニングなしで新しい未学習要求に適応することができる。
大規模な評価では、CUREは、応答品質と汎用性を維持しながら、先行処理が不足している間接クエリからでも、情報漏洩を大幅に低減することを示している。
さらに、継続的なアンラーニングシナリオの下で堅牢性を示し、現実世界のアプリケーションに実用的である。
関連論文リスト
- Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - SABRE-FL: Selective and Accurate Backdoor Rejection for Federated Prompt Learning [1.3312007032203859]
フェデレート・プロンプト・ラーニングにおけるバックドア・アタックの最初の研究について述べる。
悪意のあるクライアントが視覚的に認識不能で学習可能なノイズトリガーを入力画像に注入すると、グローバルなプロンプト学習者はターゲットの誤分類に対して脆弱になる。
この脆弱性に触発されたSABRE-FLは,非分布データに基づいてオフラインでトレーニングされた埋め込み空間異常検知器を用いて,有害な即時更新をフィルタリングする軽量モジュールディフェンスである。
論文 参考訳(メタデータ) (2025-06-25T23:15:20Z) - Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods [0.9999629695552196]
素早い攻撃下では,特定の機械学習手法が失敗する可能性があることを実証する。
出力ベース,ロジットベース,プローブ分析を用いて,3つのモデルファミリーにまたがる8つのアンラーニング手法を体系的に評価した。
論文 参考訳(メタデータ) (2025-06-11T23:36:30Z) - Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models [10.041289551532804]
本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。
アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。
UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
論文 参考訳(メタデータ) (2025-04-21T01:56:15Z) - What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - VERA: Validation and Enhancement for Retrieval Augmented systems [0.0]
textbfValidation and textbfEnhancement for textbfRetrieval textbfAugmented system を提案する。
VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。
論文 参考訳(メタデータ) (2024-09-18T16:10:47Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。