論文の概要: Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks
- arxiv url: http://arxiv.org/abs/2310.13291v1
- Date: Fri, 20 Oct 2023 05:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:16:26.976859
- Title: Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks
- Title(参考訳): 言語モデルにおけるプライバシーリスクの評価:要約課題を事例として
- Authors: Ruixiang Tang, Gord Lueck, Rodolfo Quispe, Huseyin A Inan, Janardhan
Kulkarni, Xia Hu
- Abstract要約: 我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
- 参考スコア(独自算出の注目度): 65.21536453075275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have revolutionized the field of NLP by achieving
state-of-the-art performance on various tasks. However, there is a concern that
these models may disclose information in the training data. In this study, we
focus on the summarization task and investigate the membership inference (MI)
attack: given a sample and black-box access to a model's API, it is possible to
determine if the sample was part of the training data. We exploit text
similarity and the model's resistance to document modifications as potential MI
signals and evaluate their effectiveness on widely used datasets. Our results
demonstrate that summarization models are at risk of exposing data membership,
even in cases where the reference summary is not available. Furthermore, we
discuss several safeguards for training summarization models to protect against
MI attacks and discuss the inherent trade-off between privacy and utility.
- Abstract(参考訳): 大規模言語モデルは様々なタスクで最先端のパフォーマンスを達成し、nlpの分野に革命をもたらした。
しかし、これらのモデルがトレーニングデータの情報を開示する可能性があるという懸念がある。
本研究では,要約タスクに注目し,mi攻撃について検討する。 サンプルとブラックボックスによるモデルのapiへのアクセスが与えられた場合,サンプルがトレーニングデータの一部であったかどうかを判断することができる。
テキストの類似性と文書修正に対するモデルの抵抗性をMI信号として利用し、広く使われているデータセット上での有効性を評価する。
その結果,参照要約が利用できない場合であっても,要約モデルがデータメンバシップを公開するリスクがあることが示された。
さらに,mi攻撃から保護するための要約モデルの訓練のための保護策について検討し,プライバシとユーティリティの固有のトレードオフについて論じる。
関連論文リスト
- Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。
これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。
これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文 参考訳(メタデータ) (2024-07-11T17:44:41Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Membership Inference Attacks against Language Models via Neighbourhood
Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。
近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。
より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文 参考訳(メタデータ) (2023-05-29T07:06:03Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Leveraging Adversarial Examples to Quantify Membership Information
Leakage [30.55736840515317]
パターン認識モデルにおけるメンバシップ推論の問題に対処する新しいアプローチを開発する。
この量はトレーニングデータに属する可能性を反映していると我々は主張する。
我々の手法は、最先端の戦略に匹敵する、あるいは上回る性能を発揮する。
論文 参考訳(メタデータ) (2022-03-17T19:09:38Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。