論文の概要: A Neuro-inspired Interpretation of Unlearning in Large Language Models through Sample-level Unlearning Difficulty
- arxiv url: http://arxiv.org/abs/2504.06658v1
- Date: Wed, 09 Apr 2025 07:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:33:22.947932
- Title: A Neuro-inspired Interpretation of Unlearning in Large Language Models through Sample-level Unlearning Difficulty
- Title(参考訳): サンプルレベルの未学習困難による大規模言語モデルにおける未学習の神経インスピレーションによる解釈
- Authors: Xiaohua Feng, Yuyuan Li, Chengye Wang, Junlin Liu, Li Zhang, Chaochao Chen,
- Abstract要約: 既存の研究では、サンプル全体にわたって一様でない学習困難が想定されている。
本稿では,サンプルレベルの未学習難易度を定量化するためのメモリ除去困難度(mathrmMRD$)尺度を提案する。
また、既存の未学習アルゴリズムを最適化するために、$mathrmMRD$ベースの重み付きサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 12.382999548648726
- License:
- Abstract: Driven by privacy protection laws and regulations, unlearning in Large Language Models (LLMs) is gaining increasing attention. However, current research often neglects the interpretability of the unlearning process, particularly concerning sample-level unlearning difficulty. Existing studies typically assume a uniform unlearning difficulty across samples. This simplification risks attributing the performance of unlearning algorithms to sample selection rather than the algorithm's design, potentially steering the development of LLM unlearning in the wrong direction. Thus, we investigate the relationship between LLM unlearning and sample characteristics, with a focus on unlearning difficulty. Drawing inspiration from neuroscience, we propose a Memory Removal Difficulty ($\mathrm{MRD}$) metric to quantify sample-level unlearning difficulty. Using $\mathrm{MRD}$, we analyze the characteristics of hard-to-unlearn versus easy-to-unlearn samples. Furthermore, we propose an $\mathrm{MRD}$-based weighted sampling method to optimize existing unlearning algorithms, which prioritizes easily forgettable samples, thereby improving unlearning efficiency and effectiveness. We validate the proposed metric and method using public benchmarks and datasets, with results confirming its effectiveness.
- Abstract(参考訳): プライバシー保護法と規制により、LLM(Large Language Models)の未学習が注目されている。
しかしながら、現在の研究では、特にサンプルレベルの未学習の難しさに関して、未学習プロセスの解釈可能性を無視していることが多い。
既存の研究は通常、サンプル全体にわたって一様でない未学習の難しさを仮定する。
この単純化により、アルゴリズムの設計よりもサンプル選択にアンラーニングアルゴリズムの性能が寄与し、LLMアンラーニングの開発を間違った方向に進める可能性がある。
そこで本研究では,LLMアンラーニングとサンプル特性の関係について検討し,未学習の難しさに着目した。
神経科学からインスピレーションを得て,サンプルレベルの未学習難易度を定量化するメモリ除去困難度(\mathrm{MRD}$)尺度を提案する。
$\mathrm{MRD}$ を用いて、難解なサンプルと難解なサンプルの特性を解析する。
さらに,既存の未学習アルゴリズムを最適化する$\mathrm{MRD}$ベースの重み付きサンプリング手法を提案する。
提案手法を公開ベンチマークとデータセットを用いて検証し,その有効性を確認した。
関連論文リスト
- Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - Machine Unlearning in Forgettability Sequence [22.497699136603877]
未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。
本稿では,RankingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。
論文 参考訳(メタデータ) (2024-10-09T01:12:07Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。