論文の概要: $\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality
- arxiv url: http://arxiv.org/abs/2602.01703v1
- Date: Mon, 02 Feb 2026 06:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.948949
- Title: $\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality
- Title(参考訳): $\textbf{AGT$^{AO}$}$: Adversarial Gating Training with Adaptive Orthogonality によるロバストと安定化 LLM アンラーニング
- Authors: Pengyu Li, Lingling Zhang, Zhitao Gao, Yanrui Wu, Yuxuan Dong, Huan Liu, Bifan Wei, Jun Liu,
- Abstract要約: 本研究では,ロバスト消去と実用性保全を両立させる統一的な枠組みを提案する。
Adversarial Gating Training (AGT)$ formulates unlearning as a latent-space min-max game。
実験によると、AGT$は、未学習の有効性とモデルユーティリティのトレードオフを緩和する。
- 参考スコア(独自算出の注目度): 28.07698632768221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have achieved remarkable capabilities, they unintentionally memorize sensitive data, posing critical privacy and security risks. Machine unlearning is pivotal for mitigating these risks, yet existing paradigms face a fundamental dilemma: aggressive unlearning often induces catastrophic forgetting that degrades model utility, whereas conservative strategies risk superficial forgetting, leaving models vulnerable to adversarial recovery. To address this trade-off, we propose $\textbf{AGT$^{AO}$}$ (Adversarial Gating Training with Adaptive Orthogonality), a unified framework designed to reconcile robust erasure with utility preservation. Specifically, our approach introduces $\textbf{Adaptive Orthogonality (AO)}$ to dynamically mitigate geometric gradient conflicts between forgetting and retention objectives, thereby minimizing unintended knowledge degradation. Concurrently, $\textbf{Adversarial Gating Training (AGT)}$ formulates unlearning as a latent-space min-max game, employing a curriculum-based gating mechanism to simulate and counter internal recovery attempts. Extensive experiments demonstrate that $\textbf{AGT$^{AO}$}$ achieves a superior trade-off between unlearning efficacy (KUR $\approx$ 0.01) and model utility (MMLU 58.30). Code is available at https://github.com/TiezMind/AGT-unlearning.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい機能を達成したが、機密データを意図せずに記憶し、重要なプライバシとセキュリティリスクを生じさせる。
アグレッシブ・アンラーニングは、しばしば、モデルの有用性を低下させる破滅的な忘れを誘導する一方、保守的な戦略は、表向きの忘れを危険にさらし、敵の回復に弱いモデルを残す。
このトレードオフに対処するため、我々は、堅牢な消去と実用的保全を両立する統合フレームワークである$\textbf{AGT$^{AO}$}(Adversarial Gating Training with Adaptive Orthogonality)を提案する。
具体的には、忘れと保持の目的の間の幾何学的勾配の衝突を動的に軽減し、意図しない知識の劣化を最小限に抑えるために、$\textbf{Adaptive Orthogonality (AO)$を導入している。
同時に$\textbf{Adversarial Gating Training (AGT)$は、アンラーニングを潜在空間のmin-maxゲームとして定式化し、カリキュラムベースのゲーティングメカニズムを使用して内部リカバリの試みをシミュレートし、対処する。
大規模な実験により、$\textbf{AGT$^{AO}$}$は、未学習の有効性(KUR $\approx$0.01)とモデルユーティリティ(MMLU 58.30)の間の優れたトレードオフを達成することが示された。
コードはhttps://github.com/TiezMind/AGT-unlearningで入手できる。
関連論文リスト
- Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model [34.2978692666639]
本研究では,FALCON(Contrastive Orthogonal uNalignment)による微細な活性化マニピュレーションを,表現誘導型未学習アプローチとして提案する。
FALCONは、モデルユーティリティを維持しながら、より優れた非学習効率を実現し、知識回復の試みに対して堅牢な抵抗を示す。
論文 参考訳(メタデータ) (2025-02-03T16:05:15Z) - Robust Empirical Risk Minimization with Tolerance [24.434720137937756]
我々は、(ロバストな)$textitempirical risk minimization$(RERM)の基本パラダイムについて研究する。
自然寛容なRERMは、$mathbbRd$を超える$gamma$-tolerantな学習VCクラスに十分であることを示す。
論文 参考訳(メタデータ) (2022-10-02T21:26:15Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Hedging using reinforcement learning: Contextual $k$-Armed Bandit versus
$Q$-learning [0.22940141855172028]
本稿では,リスクと市場摩擦の存在下での連関債権の複製戦略の構築について検討する。
本稿では、ヘッジ問題はリスク・アバース文脈における$k$-armed bandit問題の例と見なされる。
私たちは、$k$の武器付きバンディットモデルが、ヘッジの利益と損失の定式化に自然に適合していることに気付きました。
論文 参考訳(メタデータ) (2020-07-03T11:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。