Fugu-MT 論文翻訳(概要): Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models

論文の概要: Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models

arxiv url: http://arxiv.org/abs/2502.15836v1
Date: Thu, 20 Feb 2025 13:22:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.817502
Title: Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models
Title（参考訳）: ソフトトークン攻撃は、大規模言語モデルにおける未学習を信頼できない
Authors: Haokun Chen, Sebastian Szyller, Weilin Xu, Nageen Himayat,
Abstract要約: ソフトトークン攻撃(STA)は,大規模言語モデル(LLM)から未学習情報を抽出できることを示す。我々の研究は、より良い評価基準と、未学習の有効性を評価するためのより適切な監査ツールの必要性を強調している。
参考スコア（独自算出の注目度）: 5.807314706494602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have become increasingly popular. Their emergent capabilities can be attributed to their massive training datasets. However, these datasets often contain undesirable or inappropriate content, e.g., harmful texts, personal information, and copyrighted material. This has promoted research into machine unlearning that aims to remove information from trained models. In particular, approximate unlearning seeks to achieve information removal by strategically editing the model rather than complete model retraining. Recent work has shown that soft token attacks (STA) can successfully extract purportedly unlearned information from LLMs, thereby exposing limitations in current unlearning methodologies. In this work, we reveal that STAs are an inadequate tool for auditing unlearning. Through systematic evaluation on common unlearning benchmarks (Who Is Harry Potter? and TOFU), we demonstrate that such attacks can elicit any information from the LLM, regardless of (1) the deployed unlearning algorithm, and (2) whether the queried content was originally present in the training corpus. Furthermore, we show that STA with just a few soft tokens (1-10) can elicit random strings over 400-characters long. Thus showing that STAs are too powerful, and misrepresent the effectiveness of the unlearning methods. Our work highlights the need for better evaluation baselines, and more appropriate auditing tools for assessing the effectiveness of unlearning in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)はますます人気が高まっている。彼らの創発的能力は、大規模なトレーニングデータセットに起因する可能性がある。しかし、これらのデータセットは、しばしば望ましくないコンテンツや不適切なコンテンツ、例えば有害なテキスト、個人情報、著作権のある資料を含んでいる。これにより、訓練されたモデルから情報を取り除くことを目的とした機械学習の研究が促進された。特に、近似アンラーニングは、完全なモデル再訓練ではなく、戦略的にモデルを編集することで、情報の除去を図っている。近年の研究では、ソフトトークン攻撃(STA)がLLMから未学習情報を取り出すことに成功した。本研究では,STAが未学習を監査するための不十分なツールであることを明らかにする。一般的なアンラーニングベンチマーク(Who is Harry Potter?とTOFU)を体系的に評価することにより,(1)展開されたアンラーニングアルゴリズムによらず,そのような攻撃がLLMから情報を引き出すことができることを示す。さらに,数個のソフトトークン(1-10)しか持たないSTAは,400文字以上のランダム文字列を抽出可能であることを示す。したがって、STAは強力すぎることを示し、未学習の手法の有効性を誤表現している。本研究は,LLMにおけるアンラーニングの有効性を評価するための,より良い評価基準と,より適切な監査ツールの必要性を強調した。

関連論文リスト

Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs [19.08691637612329]
大規模言語モデル(LLM)のための機械学習(MU)は、特定の望ましくないデータや知識を訓練されたモデルから取り除こうとする。未学習のトレース検出という新たな脆弱性を特定します。すべてのモデルサイズにわたる未学習トレースの検出において, 誤り関連プロンプトが90%以上の精度で可能であることを示す。
論文参考訳（メタデータ） (2025-06-16T21:03:51Z)
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文参考訳（メタデータ） (2025-05-01T01:54:00Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文参考訳（メタデータ） (2024-11-04T21:42:56Z)
Catastrophic Failure of LLM Unlearning via Quantization [36.524827594501495]
未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文参考訳（メタデータ） (2024-10-21T19:28:37Z)
A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T16:56:05Z)
MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。総合的な機械学習評価ベンチマークであるMUSEを提案する。人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文参考訳（メタデータ） (2024-07-08T23:47:29Z)
Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning [37.061187080745654]
LLMにおけるアンラーニングに対する既存のアプローチは、単純な$textitbenign再ラーニング攻撃の影響を受けやすいことを示す。小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを'ジョグ'して、未学習の影響を逆転させることができることが分かりました。
論文参考訳（メタデータ） (2024-06-19T09:03:21Z)
Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文参考訳（メタデータ） (2024-04-17T03:39:51Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文参考訳（メタデータ） (2024-01-11T18:57:12Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。