論文の概要: OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics
- arxiv url: http://arxiv.org/abs/2506.12618v1
- Date: Sat, 14 Jun 2025 20:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.58911
- Title: OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics
- Title(参考訳): OpenUnlearning: メソッドとメトリクスの統一ベンチマークによるLLMアンラーニングの高速化
- Authors: Vineeth Dorna, Anmol Mekala, Wenlong Zhao, Andrew McCallum, Zachary C. Lipton, J. Zico Kolter, Pratyush Maini,
- Abstract要約: 我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
- 参考スコア(独自算出の注目度): 101.78963920333342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust unlearning is crucial for safely deploying large language models (LLMs) in environments where data privacy, model safety, and regulatory compliance must be ensured. Yet the task is inherently challenging, partly due to difficulties in reliably measuring whether unlearning has truly occurred. Moreover, fragmentation in current methodologies and inconsistent evaluation metrics hinder comparative analysis and reproducibility. To unify and accelerate research efforts, we introduce OpenUnlearning, a standardized and extensible framework designed explicitly for benchmarking both LLM unlearning methods and metrics. OpenUnlearning integrates 9 unlearning algorithms and 16 diverse evaluations across 3 leading benchmarks (TOFU, MUSE, and WMDP) and also enables analyses of forgetting behaviors across 450+ checkpoints we publicly release. Leveraging OpenUnlearning, we propose a novel meta-evaluation benchmark focused specifically on assessing the faithfulness and robustness of evaluation metrics themselves. We also benchmark diverse unlearning methods and provide a comparative analysis against an extensive evaluation suite. Overall, we establish a clear, community-driven pathway toward rigorous development in LLM unlearning research.
- Abstract(参考訳): 大規模言語モデル(LLM)をデータプライバシ、モデル安全性、規制コンプライアンスを保証する環境に安全にデプロイするには、ロバストなアンラーニングが不可欠だ。
しかし、その課題は本質的に困難であり、部分的には、未学習が本当に発生したかどうかを確実に測定することの難しさがある。
さらに、現在の方法論と一貫性のない評価指標の断片化は、比較分析と再現性を妨げている。
我々は,LLMアンラーニング手法とメトリクスの両方を明示的にベンチマークするために設計された,標準化された拡張可能なフレームワークであるOpenUnlearningを紹介した。
OpenUnlearningは3つの主要なベンチマーク(TOFU、MUSE、WMDP)で9つの未学習アルゴリズムと16の多様な評価を統合し、公開リリースの450以上のチェックポイントで忘れる動作の分析を可能にします。
OpenUnlearningを活用することで、評価指標自体の忠実度と堅牢性を評価することに焦点を当てた、新しいメタ評価ベンチマークを提案する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
総合的に,LLMアンラーニング研究における厳密な開発への明確なコミュニティ主導の道筋を確立する。
関連論文リスト
- Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。
IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。
IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T14:22:18Z) - MUBox: A Critical Evaluation Framework of Deep Machine Unlearning [13.186439491394474]
MUBoxは、ディープラーニングにおける未学習の手法を評価するために設計された総合的なプラットフォームである。
MUBoxは23の高度なアンラーニング技術を統合し、11の多様な評価指標で6つの実践シナリオでテストされている。
論文 参考訳(メタデータ) (2025-05-13T13:50:51Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Position: LLM Unlearning Benchmarks are Weak Measures of Progress [31.957968729934745]
既存のベンチマークでは、候補となる未学習手法の有効性について、過度に楽観的で誤解を招く可能性がある。
既存のベンチマークは特に、情報を忘れることと保持することの間に、さらに緩やかな依存関係をもたらす変更に対して脆弱である、と認識しています。
論文 参考訳(メタデータ) (2024-10-03T18:07:25Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。