論文の概要: Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures
- arxiv url: http://arxiv.org/abs/2602.03379v1
- Date: Tue, 03 Feb 2026 10:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.402792
- Title: Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures
- Title(参考訳): 良心の再学習を再考する - 非学習失敗の隠れドライバとしての構文
- Authors: Sangyeon Yoon, Hyesoo Hong, Wonje Jeung, Albert No,
- Abstract要約: 良質な微調整データからでも、忘れられた情報が再帰する良質な再学習現象について検討する。
一般的な説明では、この効果は話題の関連性に起因しているが、この説明は不十分である。
本研究では,非学習前の未知のクエリをヘテロジニアスな構造に表現する構文的多様化手法を提案する。
このアプローチは、良心的な再学習を効果的に抑制し、忘れを加速し、未学習の有効性とモデルユーティリティのトレードオフを大幅に軽減する。
- 参考スコア(独自算出の注目度): 6.583686018711596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to remove specific content from trained models while preserving overall performance. However, the phenomenon of benign relearning, in which forgotten information reemerges even from benign fine-tuning data, reveals that existing unlearning methods remain fundamentally fragile. A common explanation attributes this effect to topical relevance, but we find this account insufficient. Through systematic analysis, we demonstrate that syntactic similarity, rather than topicality, is the primary driver: across benchmarks, syntactically similar data consistently trigger recovery even without topical overlap, due to their alignment in representations and gradients with the forgotten content. Motivated by this insight, we introduce syntactic diversification, which paraphrases the original forget queries into heterogeneous structures prior to unlearning. This approach effectively suppresses benign relearning, accelerates forgetting, and substantially alleviates the trade-off between unlearning efficacy and model utility.
- Abstract(参考訳): 機械学習は、トレーニングされたモデルから特定のコンテンツを取り除き、全体的なパフォーマンスを維持することを目的としている。
しかし、良質な微調整データからでも忘れられた情報が再帰する良質な再学習の現象は、既存の未学習手法が本質的に脆弱であることを明らかにする。
一般的な説明では、この効果は話題の関連性に起因しているが、この説明は不十分である。
ベンチマークを通して、構文的に類似したデータは、トピックの重複がなくても、常にリカバリをトリガーする。
この知見に触発され、未学習の前に元の忘れクエリを異種構造に言い換える構文的多様化を導入する。
このアプローチは、良心的な再学習を効果的に抑制し、忘れを加速し、未学習の有効性とモデルユーティリティのトレードオフを大幅に軽減する。
関連論文リスト
- Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Understanding the Dilemma of Unlearning for Large Language Models [50.54260066313032]
Unlearningは、大きな言語モデル(LLM)から特定の知識を取り除こうとしている。
提案するunPactは,帰納的帰属とコントリビューショントラッキングによるアンラーニングのための解釈可能なフレームワークである。
論文 参考訳(メタデータ) (2025-09-29T12:15:19Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - LoReUn: Data Itself Implicitly Provides Cues to Improve Machine Unlearning [33.62466543549043]
Loss-based Reweighting Unlearning(LoReUn)は、未学習プロセス中に、計算オーバーヘッドを最小限に抑えて動的にデータをリウェイトするプラグイン・アンド・プレイ戦略である。
提案手法は,既存のMU手法と画像分類タスクと生成タスクの正確なアンラーニングのギャップを著しく低減する。
論文 参考訳(メタデータ) (2025-07-30T09:12:25Z) - OPC: One-Point-Contraction Unlearning Toward Deep Feature Forgetting [2.6815971241599126]
機械学習は、プライバシ、法的、倫理的要件を満たすために、訓練されたモデルから特定のデータやクラスの影響を取り除こうとする。
既存の未学習の手法では、未学習モデルの現象は、モデル応答のみを調整することで、忘れるふりをする傾向がある。
我々は,一点抽出(OPC)という新しい汎用的未学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-10T13:34:02Z) - Adversarial Mixup Unlearning [16.89710766008491]
合成ミキサアップサンプルを利用して、未学習プロセスの正規化を行う新しい手法を提案する。
私たちのアプローチの核心は、ジェネレータアンリアナーフレームワークであるMixUnlearnです。
本手法は最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-14T16:50:33Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。