論文の概要: DP-TabICL: In-Context Learning with Differentially Private Tabular Data
- arxiv url: http://arxiv.org/abs/2403.05681v1
- Date: Fri, 8 Mar 2024 21:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:51:02.205010
- Title: DP-TabICL: In-Context Learning with Differentially Private Tabular Data
- Title(参考訳): DP-TabICL:差分プライベートタブラリデータを用いたインコンテキスト学習
- Authors: Alycia N. Carey, Karuna Bhaila, Kennedy Edemacu, Xintao Wu
- Abstract要約: In-context Learning (ICL)は、大規模言語モデル(LLM)が新しいタスクに適応できるようにする。
LLMは、プロンプトに含まれる情報をリークすることができる。
この研究は、差分プライバシー(DP)の使用方法に関する最初の調査として機能する。
ローカル (LDP-TabICL) とグローバル (GDP-TabICL) の2つのプライベート ICL フレームワークを立案する。
- 参考スコア(独自算出の注目度): 12.814878223075437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables large language models (LLMs) to adapt to
new tasks by conditioning on demonstrations of question-answer pairs and it has
been shown to have comparable performance to costly model retraining and
fine-tuning. Recently, ICL has been extended to allow tabular data to be used
as demonstration examples by serializing individual records into natural
language formats. However, it has been shown that LLMs can leak information
contained in prompts, and since tabular data often contain sensitive
information, understanding how to protect the underlying tabular data used in
ICL is a critical area of research. This work serves as an initial
investigation into how to use differential privacy (DP) -- the long-established
gold standard for data privacy and anonymization -- to protect tabular data
used in ICL. Specifically, we investigate the application of DP mechanisms for
private tabular ICL via data privatization prior to serialization and
prompting. We formulate two private ICL frameworks with provable privacy
guarantees in both the local (LDP-TabICL) and global (GDP-TabICL) DP scenarios
via injecting noise into individual records or group statistics, respectively.
We evaluate our DP-based frameworks on eight real-world tabular datasets and
across multiple ICL and DP settings. Our evaluations show that DP-based ICL can
protect the privacy of the underlying tabular data while achieving comparable
performance to non-LLM baselines, especially under high privacy regimes.
- Abstract(参考訳): In-context Learning (ICL)により、質問応答ペアのデモを条件にすることで、大きな言語モデル(LLM)が新しいタスクに適応できるようになる。
近年 icl が拡張され,個々のレコードを自然言語形式にシリアライズすることにより,表形式のデータを実例として使用できるようになった。
しかし、llmはプロンプトに含まれる情報をリークできることが示されており、表データにはセンシティブな情報がしばしば含まれているため、iclで使用される表データをどのように保護するかを理解することは重要な研究領域である。
この研究は、データプライバシと匿名化のための長年確立されてきたゴールドスタンダードである差分プライバシ(DP)を使用して、ICLで使用される表データを保護する方法に関する最初の調査となる。
具体的には,直列化とプロンプト前のデータ民営化による個人用表式iclへのdp機構の適用について検討する。
ローカル(LDP-TabICL)とグローバル(GDP-TabICL)のDPシナリオにおいて,それぞれ個々のレコードやグループ統計にノイズを注入することで,プライバシー保証を保証できる2つのプライベートICLフレームワークを定式化する。
DPベースのフレームワークを実世界の8つの表形式のデータセットと、複数のICLおよびDP設定で評価する。
評価の結果,dp ベースの icl は,非llm ベースライン,特に高いプライバシー条件下では,基礎となる表データのプライバシを保護できることがわかった。
関連論文リスト
- HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection [44.225151701532454]
本稿では,表データ生成と評価のための新しいフレームワークHARMONICを提案する。
本フレームワークは, 既存の手法と同等の性能を向上し, また, 合成データの有効性とプライバシーリスクを評価するための評価枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-06T03:21:13Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Locally Differentially Private In-Context Learning [8.659575019965152]
大規模な事前学習言語モデル(LLM)は、驚くべきインコンテキスト学習(ICL)能力を示している。
本稿では,文脈内学習(LDP-ICL)の局所的差分的フレームワークを提案する。
変圧器の勾配勾配降下による文脈内学習のメカニズムを考慮し,LDP-ICLにおけるプライバシとユーティリティのトレードオフ分析を行う。
論文 参考訳(メタデータ) (2024-05-07T06:05:43Z) - Privacy Amplification for the Gaussian Mechanism via Bounded Support [64.86780616066575]
インスタンスごとの差分プライバシー(pDP)やフィッシャー情報損失(FIL)といったデータ依存のプライバシ会計フレームワークは、固定されたトレーニングデータセット内の個人に対してきめ細かいプライバシー保証を提供する。
本稿では,データ依存会計下でのプライバシ保証を向上することを示すとともに,バウンドサポートによるガウス機構の簡単な修正を提案する。
論文 参考訳(メタデータ) (2024-03-07T21:22:07Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Privacy-Preserving In-Context Learning with Differentially Private
Few-Shot Generation [37.55812121348268]
プライベートデータセット上の大きな言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、プライバシリスクを引き起こす。
本稿では,形式的な差分プライバシー保証付きプライベートデータセットから合成数発のデモを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-21T03:59:00Z) - Probing the Transition to Dataset-Level Privacy in ML Models Using an
Output-Specific and Data-Resolved Privacy Profile [23.05994842923702]
差分プライバシーメカニズムを用いてデータセットでトレーニングされたモデルが、近隣のデータセットでトレーニングされた結果の分布によってカバーされる範囲を定量化するプライバシー指標について検討する。
プライバシプロファイルは、近隣のディストリビューションで発生する不明瞭性への観察された遷移を、$epsilon$の減少として調査するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-27T20:39:07Z) - Privacy-Preserving In-Context Learning for Large Language Models [36.13851291571231]
In-context Learning (ICL) はLarge Language Models (LLM) の重要な機能である
LLMの応答は、コンテキスト内の例に含まれた機密性の高い個人情報を漏洩させる可能性がある。
In-context Learning (DP-ICL) はICLタスクを民営化する一般的なパラダイムである。
論文 参考訳(メタデータ) (2023-05-02T17:52:58Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。