論文の概要: DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning
- arxiv url: http://arxiv.org/abs/2511.05784v2
- Date: Wed, 12 Nov 2025 01:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 16:10:52.771183
- Title: DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning
- Title(参考訳): DRAGON:負の検知と推論による文脈におけるガードLLMの学習
- Authors: Yaxuan Wang, Chris Yuhao Liu, Quan Liu, Jinglong Pang, Wei Wei, Yujia Bao, Yang Liu,
- Abstract要約: 大規模言語モデル(LLM)の学習は、プライベートデータ保護と有害な知識の除去に不可欠である。
既存のアプローチのほとんどは、未学習の効率と一般的な言語能力のバランスをとるために微調整に依存している。
本稿では,これらの制限を克服するために,Dutture-Reasoning Augmented Generation (DRAGON)を提案する。
- 参考スコア(独自算出の注目度): 15.58340591381191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unlearning in Large Language Models (LLMs) is crucial for protecting private data and removing harmful knowledge. Most existing approaches rely on fine-tuning to balance unlearning efficiency with general language capabilities. However, these methods typically require training or access to retain data, which is often unavailable in real world scenarios. Although these methods can perform well when both forget and retain data are available, few works have demonstrated equivalent capability in more practical, data-limited scenarios. To overcome these limitations, we propose Detect-Reasoning Augmented GeneratiON (DRAGON), a systematic, reasoning-based framework that utilizes in-context chain-of-thought (CoT) instructions to guard deployed LLMs before inference. Instead of modifying the base model, DRAGON leverages the inherent instruction-following ability of LLMs and introduces a lightweight detection module to identify forget-worthy prompts without any retain data. These are then routed through a dedicated CoT guard model to enforce safe and accurate in-context intervention. To robustly evaluate unlearning performance, we introduce novel metrics for unlearning performance and the continual unlearning setting. Extensive experiments across three representative unlearning tasks validate the effectiveness of DRAGON, demonstrating its strong unlearning capability, scalability, and applicability in practical scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の学習は、プライベートデータ保護と有害な知識の除去に不可欠である。
既存のアプローチのほとんどは、未学習の効率と一般的な言語能力のバランスをとるために微調整に依存している。
しかし、これらの手法は訓練やデータ保持のためのアクセスを必要とすることが多く、現実のシナリオでは利用できないことが多い。
これらの手法は、データを忘れたり保存したりしてもうまく機能するが、より実用的でデータ制限のあるシナリオで同等の機能を示す研究はほとんどない。
このような制約を克服するため,本研究では,インコンテキストチェーン・オブ・シント(CoT)命令を用いて,LLMを推論前にガードする,系統的な推論ベースのフレームワークであるDutture-Reasoning Augmented Generation(DRAGON)を提案する。
基本モデルを変更する代わりに、DRAGONはLLMの固有の命令フォロー機能を活用し、データを保持することなく、忘れるべきプロンプトを識別するための軽量な検出モジュールを導入している。
それらが専用のCoTガードモデルを介してルーティングされ、安全で正確なコンテキスト内介入が実行される。
アンラーニング性能を確実に評価するために,アンラーニング性能と継続的アンラーニング設定のための新しい指標を導入する。
3つの代表的な非学習タスクにわたる大規模な実験は、DRAGONの有効性を検証し、その強力な非学習能力、スケーラビリティ、実践シナリオへの適用性を実証している。
関連論文リスト
- Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。
これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。
JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。
大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文 参考訳(メタデータ) (2025-09-02T20:38:53Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。
IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。
IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T14:22:18Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - On Large Language Model Continual Unlearning [35.49718871265512]
モデルの安全性とセキュリティの代表的なアプローチとして、機械学習が登場した。
これらの手法は、現実世界のシナリオにおける未学習の要求が継続的に発生していると十分には考えていない。
要求されたデータを継続的に学習するための直交型ローランクアダプタ(LoRA)と,入力データと非学習データとの類似性を計測するアウトオフオフ分布検出器を提案する。
論文 参考訳(メタデータ) (2024-07-14T14:26:17Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。
デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。