Fugu-MT 論文翻訳(概要): Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

論文の概要: Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

arxiv url: http://arxiv.org/abs/2407.10058v1
Date: Sun, 14 Jul 2024 03:05:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 19:38:33.756630
Title: Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
Title（参考訳）: 再利用への学習 - LLMにおけるプライバシリスクの軽減に向けて
Authors: Zhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen,
Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
参考スコア（独自算出の注目度）: 6.685921135304385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) exhibit remarkable capabilities in understanding and generating natural language. However, these models can inadvertently memorize private information, posing significant privacy risks. This study addresses the challenge of enabling LLMs to protect specific individuals' private data without the need for complete retraining. We propose \return, a Real-world pErsonal daTa UnleaRNing dataset, comprising 2,492 individuals from Wikipedia with associated QA pairs, to evaluate machine unlearning (MU) methods for protecting personal data in a realistic scenario. Additionally, we introduce the Name-Aware Unlearning Framework (NAUF) for Privacy Protection, which enables the model to learn which individuals' information should be protected without affecting its ability to answer questions related to other unrelated individuals. Our extensive experiments demonstrate that NAUF achieves a state-of-the-art average unlearning score, surpassing the best baseline method by 5.65 points, effectively protecting target individuals' personal data while maintaining the model's general capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。しかし、これらのモデルは故意に個人情報を記憶し、重大なプライバシーリスクを生じさせる可能性がある。本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。実世界のpErsonal daTa UnleaRNingデータセットである‘return’を提案し、Wikipediaの2,492人の個人と関連するQAペアで構成され、現実的なシナリオで個人データを保護するための機械学習(MU)手法を評価する。さらに、プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入し、他の無関係な個人に関する質問に答える能力に影響を与えることなく、どの個人の情報を保護するべきかを学習できるようにする。実験の結果,NAUFは平均的未学習スコアを達成し,最高のベースライン法を5.65ポイント越え,対象個人の個人データを効果的に保護し,モデルの汎用性を維持した。

関連論文リスト

Data-Free Privacy-Preserving for LLMs via Model Inversion and Selective Unlearning [27.452191507918148]
大規模言語モデル(LLM)は、強力な能力を示すが、トレーニングデータから機密性のある個人識別情報(PII)を記憶するリスクがある。データ自由選択学習(DFSU: Data-free Selective Unlearning)は、LLMから機密性PIIを学習データを必要とせずに除去する新しいプライバシー保護フレームワークである。提案手法は,まず擬似PIIを言語モデル逆変換により合成し,次にこれらの合成サンプルに対してトークンレベルのプライバシマスクを構築し,最後にトークンレベルの選択的アンラーニングを実行する。
論文参考訳（メタデータ） (2026-01-22T02:43:12Z)
Differential Privacy in Machine Learning: From Symbolic AI to LLMs [49.1574468325115]
差別化プライバシは、プライバシーリスクを軽減するための正式なフレームワークを提供する。単一のデータポイントの包含や除外がアルゴリズムの出力を著しく変更しないことを保証する。
論文参考訳（メタデータ） (2025-06-13T11:30:35Z)
Self-Refining Language Model Anonymizers via Adversarial Distillation [49.17383264812234]
大きな言語モデル(LLM)は、個人情報を推測する能力がプライバシーのリスクを生じさせるセンシティブなドメインで、ますます使われています。本稿では,SLM(Small Language Model)を訓練し,効率的な匿名化を実現するための新しい蒸留フレームワークであるSEAL(Self-refining Anonymization with Language Model)を紹介する。
論文参考訳（メタデータ） (2025-06-02T08:21:27Z)
Membership Inference Attacks fueled by Few-Short Learning to detect privacy leakage tackling data integrity [7.8973037023478785]
ディープラーニングモデルは、トレーニングデータの一部を記憶し、プライバシリークを生成する。本稿では、深層学習モデルのプライバシー侵害の評価を容易にするFeS-MIAモデルとして考案されたFew-Shot学習に基づくMIAを提案する。また,Log-MIA尺度と呼ばれる,解釈可能な量的・質的なプライバシ尺度を提案する。
論文参考訳（メタデータ） (2025-03-12T13:09:43Z)
Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。 LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文参考訳（メタデータ） (2024-08-14T04:49:30Z)
Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions [12.451936012379319]
大規模言語モデル(LLM)は、人工知能の大幅な進歩を表し、様々な領域にまたがる応用を見つける。トレーニングのための大規模なインターネットソースデータセットへの依存は、注目すべきプライバシー問題を引き起こす。特定のアプリケーション固有のシナリオでは、これらのモデルをプライベートデータで微調整する必要があります。
論文参考訳（メタデータ） (2024-08-10T05:41:19Z)
Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文参考訳（メタデータ） (2024-06-20T13:54:32Z)
Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。 UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文参考訳（メタデータ） (2024-04-22T09:29:14Z)
Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-10-27T04:15:30Z)
Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。 PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2023-10-19T06:55:13Z)
Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文参考訳（メタデータ） (2023-10-16T13:23:54Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。 PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文参考訳（メタデータ） (2023-10-03T17:30:33Z)
Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文参考訳（メタデータ） (2022-10-04T10:18:11Z)
PCAL: A Privacy-preserving Intelligent Credit Risk Modeling Framework Based on Adversarial Learning [111.19576084222345]
本稿では,PCAL(Adversarial Learning)に基づくプライバシ保護型信用リスクモデリングの枠組みを提案する。 PCALは、ターゲット予測タスクのパフォーマンスの重要なユーティリティ情報を維持しながら、元のデータセット内のプライベート情報を隠蔽することを目的としている。結果は,PCALがユーザデータから効果的なプライバシフリー表現を学習し,信用リスク分析のためのプライバシ保存機械学習の基盤となることを示唆している。
論文参考訳（メタデータ） (2020-10-06T07:04:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。