論文の概要: Auditing Language Model Unlearning via Information Decomposition
- arxiv url: http://arxiv.org/abs/2601.15111v1
- Date: Wed, 21 Jan 2026 15:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.433586
- Title: Auditing Language Model Unlearning via Information Decomposition
- Title(参考訳): 情報分解による言語モデルの未学習
- Authors: Anmol Goel, Alan Ritter, Iryna Gurevych,
- Abstract要約: 部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
- 参考スコア(独自算出の注目度): 68.48660428111593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We expose a critical limitation in current approaches to machine unlearning in language models: despite the apparent success of unlearning algorithms, information about the forgotten data remains linearly decodable from internal representations. To systematically assess this discrepancy, we introduce an interpretable, information-theoretic framework for auditing unlearning using Partial Information Decomposition (PID). By comparing model representations before and after unlearning, we decompose the mutual information with the forgotten data into distinct components, formalizing the notions of unlearned and residual knowledge. Our analysis reveals that redundant information, shared across both models, constitutes residual knowledge that persists post-unlearning and correlates with susceptibility to known adversarial reconstruction attacks. Leveraging these insights, we propose a representation-based risk score that can guide abstention on sensitive inputs at inference time, providing a practical mechanism to mitigate privacy leakage. Our work introduces a principled, representation-level audit for unlearning, offering theoretical insight and actionable tools for safer deployment of language models.
- Abstract(参考訳): 学習アルゴリズムが明らかに成功したにもかかわらず、忘れられたデータに関する情報は、内部表現から線形にデオード可能である。
この違いを体系的に評価するために,部分的情報分解(PID)を用いて未学習を監査するための解釈可能な情報理論フレームワークを導入する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
分析の結果,両モデル間で共有される冗長な情報は,学習後の学習を継続し,既知の敵対的再建攻撃に対する感受性と相関する残留知識を構成することが明らかとなった。
これらの知見を活かした表現に基づくリスクスコアの提案により,プライバシリークを軽減するための実用的なメカニズムを提供する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
関連論文リスト
- Training Dynamics of Parametric and In-Context Knowledge Utilization in Language Models [31.829376135133554]
大規模言語モデルは、推論時に取得した文脈内知識と事前訓練中に取得したパラメトリック知識の衝突にしばしば遭遇する。
本研究は,学習条件がモデルにおけるインコンテキストとパラメトリック知識の使用にどのように影響するかを初めて制御した研究である。
実験の結果,文書内における事実の反復は,パラメトリックとインコンテクストの両方の能力の発達を促進することが明らかとなった。
論文 参考訳(メタデータ) (2025-09-29T06:18:18Z) - Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models [10.041289551532804]
本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。
アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。
UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
論文 参考訳(メタデータ) (2025-04-21T01:56:15Z) - Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - RELAX: Representation Learning Explainability [10.831313203043514]
本稿では、帰属に基づく表現の説明のための最初のアプローチであるRELAXを提案する。
ReLAXは、入力とマスクアウトされた自身のバージョンの間の表現空間における類似性を測定することで表現を説明する。
我々はRELAXの理論的解釈を提供し、教師なし学習を用いて訓練された特徴抽出器を新規に解析する。
論文 参考訳(メタデータ) (2021-12-19T14:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。