論文の概要: The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning
- arxiv url: http://arxiv.org/abs/2603.11266v1
- Date: Wed, 11 Mar 2026 19:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.617648
- Title: The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning
- Title(参考訳): アンラーニングミラージュ: LLMアンラーニングを評価するための動的フレームワーク
- Authors: Raj Sanjay Shah, Jing Huang, Keerthiram Murugesan, Nathalie Baracaldo, Diyi Yang,
- Abstract要約: 複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
- 参考スコア(独自算出の注目度): 54.67958855362658
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unlearning in Large Language Models (LLMs) aims to enhance safety, mitigate biases, and comply with legal mandates, such as the right to be forgotten. However, existing unlearning methods are brittle: minor query modifications, such as multi-hop reasoning and entity aliasing, can recover supposedly forgotten information. As a result, current evaluation metrics often create an illusion of effectiveness, failing to detect these vulnerabilities due to reliance on static, unstructured benchmarks. We propose a dynamic framework that stress tests unlearning robustness using complex structured queries. Our approach first elicits knowledge from the target model (pre-unlearning) and constructs targeted probes, ranging from simple queries to multi-hop chains, allowing precise control over query difficulty. Our experiments show that the framework (1) shows comparable coverage to existing benchmarks by automatically generating semantically equivalent Q&A probes, (2) aligns with prior evaluations, and (3) uncovers new unlearning failures missed by other benchmarks, particularly in multi-hop settings. Furthermore, activation analyses show that single-hop queries typically follow dominant computation pathways, which are more likely to be disrupted by unlearning methods. In contrast, multi-hop queries tend to use alternative pathways that often remain intact, explaining the brittleness of unlearning techniques in multi-hop settings. Our framework enables practical and scalable evaluation of unlearning methods without the need for manual construction of forget test sets, enabling easier adoption for real-world applications. We release the pip package and the code at https://sites.google.com/view/unlearningmirage/home.
- Abstract(参考訳): Unlearning in Large Language Models (LLMs) は、安全性を高め、バイアスを軽減し、忘れられる権利のような法的義務に従うことを目的としている。
マルチホップ推論やエンティティエイリアスのようなマイナーなクエリ修正は、忘れられたと思われる情報を復元することができる。
その結果、現在の評価指標は、静的で非構造化のベンチマークに依存するため、これらの脆弱性を検出することができないため、有効性の錯覚を引き起こすことが多い。
複雑な構造化クエリを用いて、未学習の堅牢性をテストする動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまでのターゲットプローブを構築し,クエリの難易度を正確に制御する。
実験の結果,(1)は意味論的に等価なQ&Aプローブを自動生成し,(2)事前評価と整合し,(3)他のベンチマーク,特にマルチホップ設定で欠落した新たな未学習障害を明らかにすることにより,既存のベンチマークに匹敵するカバレッジを示した。
さらに、アクティベーション分析は、シングルホップクエリが典型的に支配的な計算経路に従うことを示す。
対照的に、マルチホップクエリは、しばしば無傷な代替経路を使う傾向があり、マルチホップ設定におけるアンラーニング技術の脆さを説明する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的かつスケーラブルな評価を可能にする。
pipパッケージとコードはhttps://sites.google.com/view/unlearningmirage/home.comで公開しています。
関連論文リスト
- Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [82.0813150432867]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、13のアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。
IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。
IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T14:22:18Z) - Breaking Chains: Unraveling the Links in Multi-Hop Knowledge Unlearning [38.03304773600225]
大きな言語モデル(LLM)は、しばしば個人または著作権のあるデータを含む巨大な情報ストアとして機能し、それらをゼロから再トレーニングすることは不可能である。
MUNCHは、マルチホップクエリをサブクエストに分解し、最終的な意思決定における未学習モデルの不確実性を活用する、単純な不確実性に基づくアプローチである。
論文 参考訳(メタデータ) (2024-10-17T07:00:15Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。