論文の概要: Can Language Models be Instructed to Protect Personal Information?
- arxiv url: http://arxiv.org/abs/2310.02224v1
- Date: Tue, 3 Oct 2023 17:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:06:56.689709
- Title: Can Language Models be Instructed to Protect Personal Information?
- Title(参考訳): 言語モデルは個人情報を保護できるのか?
- Authors: Yang Chen, Ethan Mendes, Sauvik Das, Wei Xu, Alan Ritter
- Abstract要約: シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
- 参考スコア(独自算出の注目度): 30.187731765653428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large multimodal language models have proven transformative in numerous
applications. However, these models have been shown to memorize and leak
pre-training data, raising serious user privacy and information security
concerns. While data leaks should be prevented, it is also crucial to examine
the trade-off between the privacy protection and model utility of proposed
approaches. In this paper, we introduce PrivQA -- a multimodal benchmark to
assess this privacy/utility trade-off when a model is instructed to protect
specific categories of personal information in a simulated scenario. We also
propose a technique to iteratively self-moderate responses, which significantly
improves privacy. However, through a series of red-teaming experiments, we find
that adversaries can also easily circumvent these protections with simple
jailbreaking methods through textual and/or image inputs. We believe PrivQA has
the potential to support the development of new models with improved privacy
protections, as well as the adversarial robustness of these protections. We
release the entire PrivQA dataset at https://llm-access-control.github.io/.
- Abstract(参考訳): 大規模なマルチモーダル言語モデルは、多くのアプリケーションでトランスフォーメーションが証明されている。
しかし、これらのモデルは事前トレーニングデータを記憶し、リークし、ユーザーのプライバシーと情報セキュリティに関する深刻な懸念を引き起こすことが示されている。
データリークは防止すべきだが,提案手法のプライバシー保護とモデルユーティリティとのトレードオフを検討することも重要である。
本稿では、シミュレーションシナリオにおいて、特定の個人情報のカテゴリを保護するようモデルに指示された場合、プライバシ/ユーティリティトレードオフを評価するためのマルチモーダルベンチマークであるPrivQAを紹介する。
また,プライバシを著しく改善する応答を反復的に自己調整する手法を提案する。
しかし, 一連のレッドチーム実験により, テキスト入力や画像入力による単純なジェイルブレイク手法により, 敵の保護を回避できることが判明した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
privqaデータセット全体をhttps://llm-access-control.github.io/でリリースします。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Privacy Backdoors: Stealing Data with Corrupted Pretrained Models [23.54726973460633]
実践者は、オープンリポジトリからトレーニング済みの機械学習モデルをダウンロードして、特定のアプリケーションに適合するように微調整する。
このプラクティスによって、プライバシーバックドアの新たなリスクがもたらされることが示されています。
トランスフォーマーを含む、さまざまなモデルのプライバシバックドアを構築する方法を紹介します。
論文 参考訳(メタデータ) (2024-03-30T20:43:53Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - RecUP-FL: Reconciling Utility and Privacy in Federated Learning via
User-configurable Privacy Defense [9.806681555309519]
フェデレートラーニング(FL)は、クライアントがプライベートデータを共有せずに、協力的にモデルをトレーニングすることを可能にする。
近年の研究では、共有勾配によってプライベート情報が漏洩する可能性があることが示されている。
本稿では、ユーザ指定の機密属性により焦点を絞ることができる、ユーザ設定可能なプライバシ保護(RecUP-FL)を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:59:45Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Defending against Reconstruction Attacks with R\'enyi Differential
Privacy [72.1188520352079]
レコンストラクション攻撃により、敵は訓練されたモデルのみにアクセスすることで、トレーニングセットのデータサンプルを再生することができる。
差別化プライバシはこのような攻撃に対する既知の解決策であるが、比較的大きなプライバシ予算で使用されることが多い。
また、同機構により、従来の文献よりも優れた復元攻撃に対するプライバシー保証を導出できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:09:30Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。