Fugu-MT 論文翻訳(概要): Towards Effective Evaluations and Comparisons for LLM Unlearning Methods

論文の概要: Towards Effective Evaluations and Comparisons for LLM Unlearning Methods

arxiv url: http://arxiv.org/abs/2406.09179v2
Date: Tue, 25 Feb 2025 03:42:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:44.148005
Title: Towards Effective Evaluations and Comparisons for LLM Unlearning Methods
Title（参考訳）: LLMアンラーニング手法の有効評価と比較に向けて
Authors: Qizhou Wang, Bo Han, Puning Yang, Jianing Zhu, Tongliang Liu, Masashi Sugiyama,
Abstract要約: 本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
参考スコア（独自算出の注目度）: 97.2995389188179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The imperative to eliminate undesirable data memorization underscores the significance of machine unlearning for large language models (LLMs). Recent research has introduced a series of promising unlearning methods, notably boosting the practical significance of the field. Nevertheless, adopting a proper evaluation framework to reflect the true unlearning efficacy is also essential yet has not received adequate attention. This paper seeks to refine the evaluation of LLM unlearning by addressing two key challenges -- a) the robustness of evaluation metrics and b) the trade-offs between competing goals. The first challenge stems from findings that current metrics are susceptible to various red teaming scenarios. It indicates that they may not reflect the true extent of knowledge retained by LLMs but rather tend to mirror superficial model behaviors, thus prone to attacks. We address this issue by devising and assessing a series of candidate metrics, selecting the most robust ones under various types of attacks. The second challenge arises from the conflicting goals of eliminating unwanted knowledge while retaining those of others. This trade-off between unlearning and retention often fails to conform the Pareto frontier, rendering it subtle to compare the efficacy between methods that excel only in either unlearning or retention. We handle this issue by proposing a calibration method that can restore the original performance on non-targeted data after unlearning, thereby allowing us to focus exclusively on assessing the strength of unlearning. Our evaluation framework notably enhances the effectiveness when assessing and comparing various LLM unlearning methods, further allowing us to benchmark existing works, identify their proper hyper-parameters, and explore new tricks to enhance their practical efficacy.
Abstract（参考訳）: 望ましくないデータの記憶をなくすことは、大規模言語モデル(LLM)における機械学習の重要性を浮き彫りにする。近年の研究では、いくつかの有望な未学習手法を導入し、特にこの分野の実践的重要性を高めている。それにもかかわらず、真の未学習の有効性を反映する適切な評価フレームワークも不可欠であるが、十分な注意が払われていない。本稿は,LLMアンラーニングの評価を2つの重要な課題に対処することで改善することを目的とする。 a)評価指標と評価指標の堅牢性 b) 競合する目標間のトレードオフ最初の課題は、現在のメトリクスがさまざまなレッドチームのシナリオに影響を受けやすいことに由来する。これは、LLMが保持する真の知識の程度を反映せず、むしろ表面的なモデルの振る舞いを反映し、攻撃する傾向があることを示している。この問題に対処するために、一連の候補メトリクスを考案、評価し、さまざまな種類の攻撃下で最も堅牢なメトリクスを選択します。第二の課題は、他者の知識を維持しながら、望ましくない知識を取り除くという相反する目標から生じます。アンラーニングと保持の間のこのトレードオフは、しばしばパレートフロンティアに適合せず、アンラーニングと保持の両方でのみ優れた方法の比較を微妙に行う。我々は、未学習の後に対象外データに対する元のパフォーマンスを復元するキャリブレーション手法を提案し、未学習の強みを評価することにのみ焦点をあてることにより、この問題に対処する。評価フレームワークは,様々なLCMアンラーニング手法の評価・比較の有効性を顕著に向上させ,既存の手法をベンチマークし,適切なハイパーパラメータを同定し,実用性を高めるための新たなトリックを探索することを可能にする。

関連論文リスト

Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。 FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文参考訳（メタデータ） (2025-10-14T20:50:30Z)
LLM Unlearning Under the Microscope: A Full-Stack View on Methods and Metrics [10.638045151201084]
本稿では,近年のステートフル・アンラーニング法12の原則的分類について述べる。未学習効果(UE)、実用性維持(UT)、堅牢性(Rob)の評価を再考する。分析の結果,Multiple-choice question (MCQ) の精度に支配される現在の評価は,狭い視点しか示さないことがわかった。
論文参考訳（メタデータ） (2025-10-08T23:47:05Z)
Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs [31.768387661474904]
大規模言語モデル(LLM)におけるアンラーニングでは、事前訓練されたモデルから特定の情報を正確に除去する。これは、事前訓練中に取得した個人データや有害な知識を削除することで、LLMの安全性を確保するために重要である。 JensUnを導入し、Jensen-Shannon Divergenceをセットを忘れたり、保持したりするためのトレーニングの目的として活用する。大規模な実験では、JensUnは競合するメソッドよりも忘れやすいトレードオフを実現し、再学習に強いレジリエンスを示しています。
論文参考訳（メタデータ） (2025-09-02T20:38:53Z)
Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective [42.003102851493885]
本稿では,不正確な未学習手法の評価において重要なギャップに対処するため,RULI (Rectified Unlearning Evaluation Framework via Likelihood Inference)を提案する。 RULIは、未学習の有効性とプライバシリスクをサンプルごとの粒度で測定するために、二重目的攻撃を導入している。既存の手法で過小評価されているプライバシーリスクを暴露し,最先端のアンラーニング手法の重大な脆弱性を明らかにした。
論文参考訳（メタデータ） (2025-06-16T00:30:02Z)
OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。 IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。 IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文参考訳（メタデータ） (2025-06-06T14:22:18Z)
Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文参考訳（メタデータ） (2025-05-31T19:43:00Z)
Exploring Criteria of Loss Reweighting to Enhance LLM Unlearning [66.8042627609456]
損失再重み付けは、大きな言語モデル(LLM)を用いた機械学習において大きなメリットを示している。本稿では,損失再重み付け,すなわち飽和と重要度という2つの異なる目標を同定する。飽和度と重要度の両方の利点を組み合わせた簡易な再重み付け手法であるSatImpを提案する。
論文参考訳（メタデータ） (2025-05-17T10:41:22Z)
MUBox: A Critical Evaluation Framework of Deep Machine Unlearning [13.186439491394474]
MUBoxは、ディープラーニングにおける未学習の手法を評価するために設計された総合的なプラットフォームである。 MUBoxは23の高度なアンラーニング技術を統合し、11の多様な評価指標で6つの実践シナリオでテストされている。
論文参考訳（メタデータ） (2025-05-13T13:50:51Z)
Beyond Single-Value Metrics: Evaluating and Enhancing LLM Unlearning with Cognitive Diagnosis [34.62178125699054]
UNCD (UNlearning Evaluation via Cognitive Diagnosis) は、LLMアンラーニングのきめ細かい評価のための新しいフレームワークである。われわれのベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。当社の専用ベンチマークであるUNCD-Cyberは、危険な能力の除去に関する詳細な評価を提供する。
論文参考訳（メタデータ） (2025-02-19T06:56:59Z)
Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [1.3731623617634434]
既存の未学習指標の限界を同定し,共形予測にインスパイアされた評価指標を提案する。我々のメトリクスは、予測セットから基底真理ラベルが除外される範囲を効果的に捉えることができる。本稿では,Carini & Wagner 対逆攻撃損失に対する共形予測の洞察を統合するアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T18:58:43Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。 LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。 FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文参考訳（メタデータ） (2024-11-05T23:26:10Z)
A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T16:56:05Z)
Position: LLM Unlearning Benchmarks are Weak Measures of Progress [31.957968729934745]
既存のベンチマークでは、候補となる未学習手法の有効性について、過度に楽観的で誤解を招く可能性がある。既存のベンチマークは特に、情報を忘れることと保持することの間に、さらに緩やかな依存関係をもたらす変更に対して脆弱である、と認識しています。
論文参考訳（メタデータ） (2024-10-03T18:07:25Z)
Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。 LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文参考訳（メタデータ） (2024-08-20T09:36:04Z)
Machine Unlearning with Minimal Gradient Dependence for High Unlearning Ratios [18.73206066109299]
ミニ・アンラーニング(Mini-Unlearning)は、批判的な観察を活かした新しいアプローチである。この軽量でスケーラブルな方法は、モデルの精度を大幅に向上し、メンバシップ推論攻撃に対する耐性を高める。実験の結果,Mini-Unlearningは非学習率が高いだけでなく,既存の手法よりも精度と安全性が優れていることがわかった。
論文参考訳（メタデータ） (2024-06-24T01:43:30Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
Exploring Federated Unlearning: Analysis, Comparison, and Insights [101.64910079905566]
フェデレーション・アンラーニングは、フェデレーション・システムで訓練されたモデルからデータを選択的に除去することを可能にする。本稿では,既存のフェデレーション・アンラーニング手法について検討し,アルゴリズムの効率,モデル精度への影響,プライバシ保護の有効性について検討する。フェデレートされたアンラーニング手法を評価するための統一ベンチマークであるOpenFederatedUnlearningフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-30T01:34:33Z)
Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文参考訳（メタデータ） (2023-04-11T02:12:02Z)
Uncertainty Estimation by Fisher Information-based Evidential Deep Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文参考訳（メタデータ） (2023-03-03T16:12:59Z)
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文参考訳（メタデータ） (2022-09-18T22:03:55Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
On Data Efficiency of Meta-learning [17.739215706060605]
私たちは、現代のメタ学習アルゴリズムの見落とされがちな側面、すなわちそのデータ効率を研究します。本稿では,メタラーニング手法を評価するための新しいシンプルなフレームワークを提案する。本稿では,アクティブなデータ選択を学習学習に取り入れたアクティブなメタラーニングを提案する。
論文参考訳（メタデータ） (2021-01-30T01:44:12Z)
Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文参考訳（メタデータ） (2020-06-08T18:20:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。