論文の概要: Operationalising the Right to be Forgotten in LLMs: A Lightweight Sequential Unlearning Framework for Privacy-Aligned Deployment in Politically Sensitive Environments
- arxiv url: http://arxiv.org/abs/2604.12459v1
- Date: Tue, 14 Apr 2026 08:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.348023
- Title: Operationalising the Right to be Forgotten in LLMs: A Lightweight Sequential Unlearning Framework for Privacy-Aligned Deployment in Politically Sensitive Environments
- Title(参考訳): LLMsで忘れられる権利を運用する: 政治的に敏感な環境におけるプライバシに配慮した展開のための軽量なシークエンシャル・アンラーニングフレームワーク
- Authors: Esen Kurt, Haithem Afli,
- Abstract要約: 大規模言語モデル(LLM)は、個人データや機密コンテンツの記憶が規制上の懸念を引き起こす政治的に敏感な環境にますます展開されている。
我々は、保持と抑圧の目的を明確に分離する軽量なシーケンシャルな非学習フレームワークを導入する。
SemEval-2025 LLM Unlearningベンチマークの実験は、事実の正確性と堅牢性に最小限の影響を伴って効果的な行動抑制を実証している。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in politically sensitive environments, where memorisation of personal data or confidential content raises regulatory concerns under frameworks such as the GDPR and its Right to be Forgotten. Translating such legal principles into large-scale generative systems presents significant technical challenges. We introduce a lightweight sequential unlearning framework that explicitly separates retention and suppression objectives. The method first stabilises benign capabilities through positive fine-tuning, then applies layer-restricted negative fine-tuning to suppress designated sensitive patterns while preserving general language competence. Experiments on the SemEval-2025 LLM Unlearning benchmark demonstrate effective behavioural suppression with minimal impact on factual accuracy and fluency. GPT-2 exhibits greater robustness than DistilGPT-2, highlighting the role of model capacity in privacy-aligned adaptation. We position sequential unlearning as a practical and reproducible mechanism for operationalising data erasure requirements in politically deployed LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、個人データや機密コンテンツの記憶がGDPRや忘れられる権利などのフレームワークの下で規制上の懸念を提起する、政治的に敏感な環境にますます展開されている。
このような法則を大規模生成システムに翻訳することは、重要な技術的課題である。
我々は、保持と抑圧の目的を明確に分離する軽量なシーケンシャルな非学習フレームワークを導入する。
この方法は、まず正の微調整により良性の安定化を行い、次に層制限された負の微調整を適用して、汎用言語能力を維持しつつ、指定された繊細なパターンを抑える。
SemEval-2025 LLM Unlearningベンチマークの実験では、事実の精度と流布率に最小限の影響で効果的な行動抑制が示された。
GPT-2はDistilGPT-2よりも堅牢性が高く、プライバシに整合した適応におけるモデルキャパシティの役割を強調している。
我々は、政治的に展開されたLLMにおけるデータ消去要求を運用するための実用的で再現可能なメカニズムとして、シーケンシャル・アンラーニングを位置づけている。
関連論文リスト
- MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Feature-Selective Representation Misdirection for Machine Unlearning [34.167873590478074]
マシンアンラーニングは、デプロイされたモデルが進化する法律、安全、ガバナンス要件に準拠することを確実にするのに役立つ。
現在の未学習のテクニックは、データセットの忘れと保持のクリーンな分離を前提としている。
本稿では,アクティベーション編集フレームワークSRMU(Selective Representation Misdirection for Unlearning)を提案する。
論文 参考訳(メタデータ) (2025-12-18T08:31:50Z) - Wisdom is Knowing What not to Say: Hallucination-Free LLMs Unlearning via Attention Shifting [11.725875396424927]
選択的アンラーニングのためのAttention-Shifting(AS)フレームワークを導入する。
ASは,(1)LLMの言語構造を損なうことなく,事実を含むトークンへの注意を弱める文脈保存抑制,(2)未学習コンテンツについて問い合わせたときの完成度を損なう幻覚耐性応答の2つの設計目標によって駆動される。
実験の結果、ASは最先端の未学習手法よりも性能を向上し、ToFUベンチマークでは最大15%、TDECベンチマークでは10%の精度を達成し、競合する幻覚のない未学習の有効性を維持した。
論文 参考訳(メタデータ) (2025-10-20T06:50:03Z) - Dual-Space Smoothness for Robust and Balanced LLM Unlearning [28.56156017984944]
PRISMは、非学習メトリクスを改善しバランスをとるために、表現空間とパラメータ空間の二重空間の滑らかさを強制する統合フレームワークである。
PRISMは2つのスムーズな最適化段階から構成される: (i) 堅牢に訓練されたプローブを用いてジェイルブレイク攻撃を防御する表現空間ステージ、 (ii) 保持と忘れられた勾配の衝突を分離し、不均衡を減らし、再学習攻撃を軽減するためにパラメータ空間を滑らかにするパラメータ空間ステージ。
論文 参考訳(メタデータ) (2025-09-27T15:20:37Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [14.321060805197874]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。