Fugu-MT 論文翻訳(概要): MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts

論文の概要: MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts

arxiv url: http://arxiv.org/abs/2409.11844v1
Date: Wed, 18 Sep 2024 09:55:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 18:23:34.774191
Title: MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts
Title（参考訳）: メモリー監督のLLMアンラーニング(動画あり)
Authors: Tianle Gu, Kexin Huang, Ruilin Luo, Yuanqi Yao, Yujiu Yang, Yan Teng, Yingchun Wang,
Abstract要約: 大きな言語モデル(LLM)は機密情報を記憶し、潜在的な誤用に対する懸念を引き起こす。以前のプラクティスでは、実用性、効率性、堅牢性という3つの大きな課題に直面しています。勾配降下に基づくアンラーニング手法であるMEOWを提案する。
参考スコア（独自算出の注目度）: 29.593170782882563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) can memorize sensitive information, raising concerns about potential misuse. LLM Unlearning, a post-hoc approach to remove this information from trained LLMs, offers a promising solution to mitigate these risks. However, previous practices face three key challenges: 1. Utility: successful unlearning often causes catastrophic collapse on unrelated tasks. 2. Efficiency: many methods either involve adding similarly sized models, which slows down unlearning or inference, or require retain data that are difficult to obtain. 3. Robustness: even effective methods may still leak data via extraction techniques. To address these challenges, we propose MEOW, a simple yet effective gradient descent-based unlearning method. Specifically, we use an offline LLM to generate a set of inverted facts. Then, we design a new metric, MEMO, to quantify memorization in LLMs. Finally, based on the signals provided by MEMO, we select the most appropriate set of inverted facts and finetune the model based on them. We evaluate MEOW on the commonly used unlearn benchmark, ToFU, with Llama2-7B-Chat and Phi-1.5B, and test it on both NLU and NLG tasks. Results demonstrate significant improvement of MEOW in forget quality without substantial loss in model utility. Meanwhile, MEOW does not exhibit significant degradation in NLU or NLG capabilities, and there is even a slight improvement in NLU performance.
Abstract（参考訳）: 大きな言語モデル(LLM)は機密情報を記憶し、潜在的な誤用に対する懸念を引き起こす。 LLM Unlearningは、トレーニングされたLSMからこの情報を除去するポストホックなアプローチで、これらのリスクを軽減するための有望なソリューションを提供する。しかし、以前のプラクティスは3つの大きな課題に直面しています。 1. 実用性: 未学習の成功は、無関係なタスクに対して壊滅的な崩壊を引き起こすことが多い。 2. 効率性:多くのメソッドは、学習や推論を遅くする同様のサイズのモデルを追加するか、取得が困難なデータを保持する必要がある。 3.ロバスト性: 効果的な方法でさえも、抽出技術を介してデータをリークする可能性がある。これらの課題に対処するため,簡単な勾配降下に基づくアンラーニング手法であるMEOWを提案する。具体的には、オフラインのLCMを使用して、反転した事実の集合を生成する。次に,LLMにおける記憶の定量化のための新しい指標MEMOを設計する。最後に、MEMOの提供する信号に基づいて、最も適切な倒立事実の集合を選択し、それらに基づいてモデルを微調整する。我々は、Llama2-7B-Chat と Phi-1.5B を用いて、一般に使われている未学習のベンチマークであるToFUでMEOWを評価し、NLU と NLG のタスクでテストした。その結果、モデルユーティリティーの大幅な損失を伴わずに、品質を忘れることにおけるMEOWの大幅な改善が示された。一方 MEOW は NLU や NLG の能力を著しく低下させておらず,NLU の性能も若干改善されている。

関連論文リスト

Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning [19.9759585536617]
MLLM(Multimodal Large Language Models)のための安全アンラーニングベンチマークであるSAFEERASERを提案する。我々は2つの観点から非学習手法を総合的に評価する。実験により、PD損失と既存の未学習手法を組み合わせることで、過剰な鍛造を効果的に防止できることが示された。
論文参考訳（メタデータ） (2025-02-18T04:09:46Z)
Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文参考訳（メタデータ） (2024-12-29T09:35:56Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。 LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文参考訳（メタデータ） (2024-10-14T23:43:33Z)
Mitigating Memorization In Language Models [37.899013074095336]
言語モデル(LM)は情報を「記憶」し、トレーニングデータをその重みにエンコードすることで、推論時クエリがそのデータの冗長な復活につながる。本稿では,メモリ化緩和手法の高速化と評価を目的とした,小型で計算効率のよいLMのスイートであるTinyMemを紹介する。特に,提案した未学習手法である BalancedSubnet は,目標タスクの性能を保ちながら,記憶情報を削除する他の緩和手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-03T02:53:51Z)
Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。 LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文参考訳（メタデータ） (2024-08-13T04:18:32Z)
SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions [37.172662930947446]
命令追従型大規模言語モデル(LLM)は、個人または著作権のある情報を故意に開示する。 SNAPは,情報を選択的に学習するための革新的なフレームワークである。我々は,NLPベンチマークにおけるフレームワークの評価を行い,提案手法が元のLLM能力を維持していることを示す。
論文参考訳（メタデータ） (2024-06-18T06:54:05Z)
Reversing the Forget-Retain Objectives: An Efficient LLM Unlearning Framework from Logit Difference [39.29939437034823]
我々は、ログ差分(ULD)からのアンラーニングと呼ばれる新しいアンラーニングフレームワークを提案する。本手法は,LLMの全体的な能力を維持しつつ,意図した忘れを効果的に実現し,トレーニング時間を3倍以上に短縮する。
論文参考訳（メタデータ） (2024-06-12T19:26:35Z)
Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文参考訳（メタデータ） (2024-04-17T03:39:51Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。