論文の概要: CAP: Controllable Alignment Prompting for Unlearning in LLMs
- arxiv url: http://arxiv.org/abs/2604.21251v2
- Date: Fri, 24 Apr 2026 02:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 13:34:22.040405
- Title: CAP: Controllable Alignment Prompting for Unlearning in LLMs
- Title(参考訳): CAP:LLMにおけるアンラーニングのための制御可能なアライメントプロンプト
- Authors: Zhaokun Wang, Jinyu Guo, Jingwen Pu, Hongli Pu, Meng Yang, Xunlei Chen, Jie Ou, Wenyi Li, Guangchun Luo, Wenhong Tian,
- Abstract要約: 大規模言語モデル(LLM)は、未フィルタリングコーパスで訓練され、本質的に機密情報を保持するリスクを負う。
既存のパラメータ修正手法は、計算コストの増大、制御不能な境界の無視、モデルウェイトアクセスへの厳格な依存など、基本的な制限に直面している。
我々は、エンドツーエンドのプロンプト駆動型アンラーニングパラダイムである、Unlearningフレームワークのための制御可能なアライメント・プロンプトを提案する。
- 参考スコア(独自算出の注目度): 19.554047742421197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) trained on unfiltered corpora inherently risk retaining sensitive information, necessitating selective knowledge unlearning for regulatory compliance and ethical safety. However, existing parameter-modifying methods face fundamental limitations: high computational costs, uncontrollable forgetting boundaries, and strict dependency on model weight access. These constraints render them impractical for closed-source models, yet current non-invasive alternatives remain unsystematic and reliant on empirical experience. To address these challenges, we propose the Controllable Alignment Prompting for Unlearning (CAP) framework, an end-to-end prompt-driven unlearning paradigm. CAP decouples unlearning into a learnable prompt optimization process via reinforcement learning, where a prompt generator collaborates with the LLM to suppress target knowledge while preserving general capabilities selectively. This approach enables reversible knowledge restoration through prompt revocation. Extensive experiments demonstrate that CAP achieves precise, controllable unlearning without updating model parameters, establishing a dynamic alignment mechanism that overcomes the transferability limitations of prior methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、未フィルタリングのコーパスで訓練され、本質的に機密情報を保持し、規制の遵守と倫理的安全のために学習されていない選択的な知識を必要とする。
しかし、既存のパラメータ修正手法は、計算コストの増大、制御不能な境界の無視、モデルウェイトアクセスへの厳格な依存など、基本的な制限に直面している。
これらの制約は、クローズドソースモデルでは実用的ではないが、現在の非侵襲的な代替手段は、非体系的であり、経験的経験に依存している。
これらの課題に対処するため,我々は,エンドツーエンドのプロンプト駆動型アンラーニングパラダイムであるCAP(Controlable Alignment Prompting for Unlearning)フレームワークを提案する。
CAPはアンラーニングを強化学習を介して学習可能なプロンプト最適化プロセスに切り離し、プロンプトジェネレータがLLMと協調して汎用能力を選択的に保ちながら目標知識を抑える。
このアプローチは、即時取り消しによる可逆的な知識回復を可能にする。
広範な実験により、CAPはモデルパラメータを更新せずに正確で制御可能なアンラーニングを実現し、事前のメソッドの転送可能性制限を克服する動的アライメント機構を確立した。
関連論文リスト
- CATNIP: LLM Unlearning via Calibrated and Tokenized Negative Preference Alignment [14.853204323785334]
既存のアプローチは、グラディエント・アセント(GA)をルーツとしており、保持データやコントラッシブなペアに頼りながら、一般的なドメイン知識を劣化させることが多い。
我々は,モデルのトークンレベルの信頼度に比例して,未学習効果を再スケールする原理的手法を開発した。
我々の研究は、保持データや対照的なアンラーニング応答ペアを必要とせず、効果的なアンラーニングを可能にする。
論文 参考訳(メタデータ) (2026-02-02T21:23:54Z) - Unlearning Imperative: Securing Trustworthy and Responsible LLMs through Engineered Forgetting [0.0]
機密性の高いドメインの大規模な言語モデルは、プライベート情報が永久に忘れられることを保証できません。
最初からのトレーニングは違法に費用がかかる。
既存の未学習のメソッドは断片化され、検証が困難で、回復に脆弱であることが多い。
論文 参考訳(メタデータ) (2025-11-13T01:29:05Z) - MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering [36.80441487363007]
MLLMEraserは、テスト時間アンラーニングのための入力対応、トレーニング不要のフレームワークである。
逆摂動型知識-リコール画像-テキストペアを対比してマルチモーダル消去方向を構築する。
LLaVA-1.5とQwen-2.5-VLの実験では、MLLMEraserは最先端MLLMの未学習ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-05T14:20:17Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。
テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文 参考訳(メタデータ) (2025-06-01T01:19:37Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Large Language Model Unlearning via Embedding-Corrupted Prompts [10.889859281637406]
大規模言語モデルのための軽量なアンラーニングフレームワークである textbfEmbedding-COrrupted (ECO) Prompts を提案する。
推論中に未学習の状態を識別し、忘れるプロンプトを保護するためにプロンプト分類器を用いて強制する。
その結果, 学習対象を満足させるだけでなく, 忘れることを意図したデータに基づいて訓練されたことのないモデルから得られる出力を, より正確に近似できることがわかった。
論文 参考訳(メタデータ) (2024-06-12T06:56:20Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。