論文の概要: Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4
- arxiv url: http://arxiv.org/abs/2404.05047v1
- Date: Sun, 7 Apr 2024 19:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:12:42.926574
- Title: Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4
- Title(参考訳): GPT-4を用いたタブラルデータにおけるゼロショットプライバシユーティリティトレードオフの初期探索
- Authors: Bishwas Mandal, George Amariucai, Shuangqing Wei,
- Abstract要約: グラフデータにおけるプライバシとユーティリティのトレードオフを含むシナリオに対する大規模言語モデル(LLM)の適用について検討する。
提案手法では,データポイントをテキスト形式に変換して GPT-4 を促進させるとともに,正確な衛生指示をゼロショットで含める。
この比較的単純なアプローチは、プライバシとユーティリティのトレードオフを管理するために使われる、より複雑な逆最適化手法に匹敵するパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 2.54365580380609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the application of large language models (LLMs), specifically GPT-4, to scenarios involving the tradeoff between privacy and utility in tabular data. Our approach entails prompting GPT-4 by transforming tabular data points into textual format, followed by the inclusion of precise sanitization instructions in a zero-shot manner. The primary objective is to sanitize the tabular data in such a way that it hinders existing machine learning models from accurately inferring private features while allowing models to accurately infer utility-related attributes. We explore various sanitization instructions. Notably, we discover that this relatively simple approach yields performance comparable to more complex adversarial optimization methods used for managing privacy-utility tradeoffs. Furthermore, while the prompts successfully obscure private features from the detection capabilities of existing machine learning models, we observe that this obscuration alone does not necessarily meet a range of fairness metrics. Nevertheless, our research indicates the potential effectiveness of LLMs in adhering to these fairness metrics, with some of our experimental results aligning with those achieved by well-established adversarial optimization techniques.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM),特にGPT-4の,表形式のデータにおけるプライバシとユーティリティのトレードオフを含むシナリオへの適用について検討する。
提案手法では,表形式のデータポイントをテキスト形式に変換して GPT-4 を促進させるとともに,正確な衛生指示をゼロショットで含む。
主な目的は、既存の機械学習モデルがプライベートな特徴を正確に推論することを妨げるとともに、モデルがユーティリティ関連の属性を正確に推論できるようにするように、表データの衛生化である。
各種衛生対策について検討する。
特に、この比較的単純なアプローチは、プライバシとユーティリティのトレードオフを管理するために使われる、より複雑な敵最適化手法に匹敵するパフォーマンスをもたらす。
さらに、既存の機械学習モデルの検出能力から、プライベートな特徴を隠蔽することに成功しているが、この難読化だけでは必ずしもフェアネスの指標を満たさないことが観察されている。
しかしながら,本研究は,これらの公正度指標に適合するLLMの有効性を示唆しており,その実験結果のいくつかは,よく確立された対角最適化手法によって達成されたものと一致している。
関連論文リスト
- Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - On Memorization and Privacy Risks of Sharpness Aware Minimization [7.515042219136927]
シャープネス認識最小化(SAM)によって達成される一般化ゲインは、非定型データポイントに対して特に顕著である。
この洞察はSAMに関連する高いプライバシーリスクを明らかにするのに役立ち、徹底的な経験的評価を通じて検証する。
論文 参考訳(メタデータ) (2023-09-30T20:59:07Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - PILLAR: How to make semi-private learning more effective [12.292092677396347]
Semi-Supervised Semi-Private (SP)学習では、学習者は公開されていないラベル付きデータとプライベートラベル付きデータの両方にアクセスすることができる。
そこで本研究では,実世界のデータセット上で効率よく動作可能な,プライベートラベル付きサンプルの複雑さを著しく低減する計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:45:05Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - Differentially Private Synthetic Data: Applied Evaluations and
Enhancements [4.749807065324706]
異なるプライベートデータ合成は、個人の詳細を露出から保護する。
データ合成のための4つの差分私的生成対向ネットワークの評価を行った。
合成データを生成するためのアンサンブルに基づくモデリング手法であるQUAILを提案する。
論文 参考訳(メタデータ) (2020-11-11T04:03:08Z) - Bandit Data-Driven Optimization [62.01362535014316]
機械学習パイプラインが設定で有用になるためには、克服しなければならない大きな問題点が4つある。
これらの問題点に対処する最初の反復予測記述フレームワークであるBanditデータ駆動最適化を導入する。
本稿では,このフレームワークの新しいアルゴリズム PROOF を提案する。
論文 参考訳(メタデータ) (2020-08-26T17:50:49Z) - Privacy Enhancing Machine Learning via Removal of Unwanted Dependencies [21.97951347784442]
本稿では,特定のアプリケーションに送信される前に,データ中のセンシティブな情報を除去する,教師付き・敵対型学習手法の新たな変種について検討する。
提案手法は,エンド・ツー・エンド方式で特徴マッピングと予測モデルを同時に保存するプライバシー保護を最適化する。
モバイルセンシングと顔データを用いた実験結果から,予測モデルの実用性能の維持に成功し,予測性能の低下を招いた。
論文 参考訳(メタデータ) (2020-07-30T19:55:10Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。