Fugu-MT 論文翻訳(概要): Scalability of memorization-based machine unlearning

論文の概要: Scalability of memorization-based machine unlearning

arxiv url: http://arxiv.org/abs/2410.16516v1
Date: Mon, 21 Oct 2024 21:18:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.770684
Title: Scalability of memorization-based machine unlearning
Title（参考訳）: 記憶型機械アンラーニングのスケーラビリティ
Authors: Kairan Zhao, Peter Triantafillou,
Abstract要約: 機械学習(MUL)は、事前訓練されたモデルからデータの特定のサブセットの影響を取り除くことに焦点を当てている。記憶に基づく未学習法が開発され、未学習の品質に関して例外的な性能を示した。我々は、一連の記憶スコアプロキシを用いて、最先端の記憶型MULアルゴリズムのスケーラビリティに挑戦する。
参考スコア（独自算出の注目度）: 2.5782420501870296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine unlearning (MUL) focuses on removing the influence of specific subsets of data (such as noisy, poisoned, or privacy-sensitive data) from pretrained models. MUL methods typically rely on specialized forms of fine-tuning. Recent research has shown that data memorization is a key characteristic defining the difficulty of MUL. As a result, novel memorization-based unlearning methods have been developed, demonstrating exceptional performance with respect to unlearning quality, while maintaining high performance for model utility. Alas, these methods depend on knowing the memorization scores of data points and computing said scores is a notoriously time-consuming process. This in turn severely limits the scalability of these solutions and their practical impact for real-world applications. In this work, we tackle these scalability challenges of state-of-the-art memorization-based MUL algorithms using a series of memorization-score proxies. We first analyze the profiles of various proxies and then evaluate the performance of state-of-the-art (memorization-based) MUL algorithms in terms of both accuracy and privacy preservation. Our empirical results show that these proxies can introduce accuracy on par with full memorization-based unlearning while dramatically improving scalability. We view this work as an important step toward scalable and efficient machine unlearning.
Abstract（参考訳）: 機械学習(MUL)は、事前訓練されたモデルから特定のサブセット(ノイズ、毒、プライバシーに敏感なデータなど)の影響を取り除くことに焦点を当てている。 MUL法は典型的には特殊な微調整形式に依存している。近年の研究では、MULの難易度を定義する重要な特徴として、データの記憶が示されている。その結果、新しい暗記に基づく未学習法が開発され、モデルユーティリティの高性能を維持しながら、未学習の品質に関して例外的な性能を示した。残念なことに、これらの手法は、データポイントの記憶スコアを知ることと、そのスコアを計算することに依存する。これにより、これらのソリューションのスケーラビリティと、現実世界のアプリケーションに対する実践的な影響を著しく制限します。本研究では,一連の暗記スコアプロキシを用いて,最先端の暗記に基づくMULアルゴリズムのスケーラビリティ問題に取り組む。まず,様々なプロキシのプロファイルを分析し,その精度とプライバシ保護の両面から,最先端の(記憶に基づく)MULアルゴリズムの性能を評価する。実験結果から,これらのプロキシは,完全記憶型アンラーニングと同等の精度で,スケーラビリティを劇的に向上させることができることがわかった。私たちはこの作業が、スケーラブルで効率的な機械学習への重要なステップであると考えています。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Benchmarking Federated Machine Unlearning methods for Tabular Data [9.30408906787193]
マシンアンラーニングにより、モデルは要求時に特定のデータを忘れることができる。本稿では,フェデレートされた環境での機械学習手法のベンチマークに関する先駆的な研究について述べる。機械学習、ランダムフォレスト、ロジスティック回帰モデルの両方を用いて、この機能とインスタンスレベルでのアンラーニングについて検討する。
論文参考訳（メタデータ） (2025-04-01T15:53:36Z)
Detecting Memorization in Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。従来の暗記検出方法は出力確率や損失関数に依存している。 LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
論文参考訳（メタデータ） (2024-12-02T00:17:43Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。 LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Mitigating Memorization In Language Models [37.899013074095336]
言語モデル(LM)は情報を「記憶」し、トレーニングデータをその重みにエンコードすることで、推論時クエリがそのデータの冗長な復活につながる。本稿では,メモリ化緩和手法の高速化と評価を目的とした,小型で計算効率のよいLMのスイートであるTinyMemを紹介する。特に,提案した未学習手法である BalancedSubnet は,目標タスクの性能を保ちながら,記憶情報を削除する他の緩和手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-03T02:53:51Z)
Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting [4.220336689294245]
本稿では,タスク関連特徴相関を保ちつつ,効率的にインスタンスを破棄する新しい手法である分散レベル特徴分散(DLFD)を提案する。提案手法は, 特徴分布を忘れ試料と明確に異なるように最適化し, 単一の学習エポック内で有効結果を得る。
論文参考訳（メタデータ） (2024-09-23T06:51:10Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。総合的な機械学習評価ベンチマークであるMUSEを提案する。人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文参考訳（メタデータ） (2024-07-08T23:47:29Z)
Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文参考訳（メタデータ） (2024-04-14T05:02:00Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
Layer Attack Unlearning: Fast and Accurate Machine Unlearning via Layer Level Attack and Knowledge Distillation [21.587358050012032]
本稿では,階層攻撃アンラーニング(Layer attack unlearning)と呼ばれる,高速で斬新な機械学習パラダイムを提案する。そこで本研究では, 試料を効率よく検出する部分PGDアルゴリズムを提案する。また,教師から意思決定境界を確実に学習するために知識蒸留(KD)も活用する。
論文参考訳（メタデータ） (2023-12-28T04:38:06Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文参考訳（メタデータ） (2021-04-06T22:53:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。