Fugu-MT 論文翻訳(概要): Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs

論文の概要: Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs

arxiv url: http://arxiv.org/abs/2406.11780v1
Date: Mon, 17 Jun 2024 17:35:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 13:23:59.830656
Title: Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs
Title（参考訳）: Split, Unlearn, Merge: LLMのより効果的なアンラーニングにデータ属性を活用する
Authors: Swanand Ravindra Kadhe, Farhan Ahmed, Dennis Wei, Nathalie Baracaldo, Inkit Padhi,
Abstract要約: SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
参考スコア（独自算出の注目度）: 18.629717934007513
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have shown to pose social and ethical risks such as generating toxic language or facilitating malicious use of hazardous knowledge. Machine unlearning is a promising approach to improve LLM safety by directly removing harmful behaviors and knowledge. In this paper, we propose "SPlit, UNlearn, MerGE" (SPUNGE), a framework that can be used with any unlearning method to amplify its effectiveness. SPUNGE leverages data attributes during unlearning by splitting unlearning data into subsets based on specific attribute values, unlearning each subset separately, and merging the unlearned models. We empirically demonstrate that SPUNGE significantly improves the performance of two recent unlearning methods on state-of-the-art LLMs while maintaining their general capabilities on standard academic benchmarks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、有害な言語の生成や悪意のある有害な知識の使用を促進するなど、社会的および倫理的なリスクを生じさせることが示されている。マシン・アンラーニングは有害な行動や知識を直接取り除き、LLMの安全性を向上させるための有望なアプローチである。本稿では,Unlearn, MerGE(SPUNGE, UNlearn, MerGE)を提案する。 SPUNGEは、未学習データを特定の属性値に基づいてサブセットに分割し、各サブセットを個別に学習し、未学習のモデルをマージすることで、アンラーニング中のデータ属性を活用する。実験により、SPUNGEは、最新のLLMにおける2つの非学習手法の性能を大幅に向上させつつ、標準的な学術ベンチマークでの一般的な性能を維持しながら、その性能を向上することを示した。

関連論文リスト

PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning [27.16106173526184]
LMMのための現実的な未学習シナリオのためのPULSEプロトコルを提案する。そして、これらの次元に沿って既存の未学習手法を評価する。以上の結果から,いくつかの技術は微調整によって習得した知識を学べるが,事前学習中に学習した情報の除去に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-07-02T01:13:08Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。 IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。 IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文参考訳（メタデータ） (2025-06-06T14:22:18Z)
BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap [18.68387394444096]
機械学習は、大規模な言語モデル(LLM)の安全性を向上させる可能性を秘めている。非学習における鍵となる課題は、忘れられた品質(事実上望ましくない情報)のバランスをとることと、品質を維持すること(他の一般的なタスクにおいて優れたパフォーマンスを維持すること)である。 LLM アンラーニングのためのベンチマークである $textttBLUR$ を提示する。
論文参考訳（メタデータ） (2025-05-28T22:09:04Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。 LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language Models [26.07431044262102]
本稿では,大規模言語モデル(LLM)におけるモデルウェイトと未学習プロセスの相互作用について考察する。重みの「影響」と「影響」とを相互に関連付けることによって,重みの「影響」を記憶・保持するLLMアンラーニング手法であるWAGLEを設計する。
論文参考訳（メタデータ） (2024-10-23T02:22:07Z)
Catastrophic Failure of LLM Unlearning via Quantization [36.524827594501495]
未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文参考訳（メタデータ） (2024-10-21T19:28:37Z)
When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? [15.318301783084681]
大規模言語モデル(LLM)は、トレーニング中に機密情報や有害なコンテンツを不注意に学習し、保持することができる。本稿では,RAG(Retrieval-Augmented Generation)技術に基づく軽量なアンラーニングフレームワークを提案する。われわれはChatGPT, Gemini, Llama-2-7b-chat-hf, PaLM 2 など,オープンソースおよびクローズドソースモデルの広範な実験を通じてフレームワークを評価する。
論文参考訳（メタデータ） (2024-10-20T03:51:01Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文参考訳（メタデータ） (2024-04-17T03:39:51Z)
Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文参考訳（メタデータ） (2024-02-13T20:51:58Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。