論文の概要: Augmenting Anonymized Data with AI: Exploring the Feasibility and Limitations of Large Language Models in Data Enrichment
- arxiv url: http://arxiv.org/abs/2504.03778v1
- Date: Thu, 03 Apr 2025 13:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:27.035956
- Title: Augmenting Anonymized Data with AI: Exploring the Feasibility and Limitations of Large Language Models in Data Enrichment
- Title(参考訳): AIによる匿名化データの増大:データ強化における大規模言語モデルの可能性と限界を探る
- Authors: Stefano Cirillo, Domenico Desiato, Giuseppe Polese, Monica Maria Lucia Sebillo, Giandomenico Solimando,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト生成と理解の両方において高度な機能を示している。
データアーカイブへのそれらの適用は、データ対象に関する機密情報の民営化を促進する可能性がある。
このデータは、保護されていないとしても、開示と身元確認の両方の観点からプライバシー上のリスクをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 3.459382629188014
- License:
- Abstract: Large Language Models (LLMs) have demonstrated advanced capabilities in both text generation and comprehension, and their application to data archives might facilitate the privatization of sensitive information about the data subjects. In fact, the information contained in data often includes sensitive and personally identifiable details. This data, if not safeguarded, may bring privacy risks in terms of both disclosure and identification. Furthermore, the application of anonymisation techniques, such as k-anonymity, can lead to a significant reduction in the amount of data within data sources, which may reduce the efficacy of predictive processes. In our study, we investigate the capabilities offered by LLMs to enrich anonymized data sources without affecting their anonymity. To this end, we designed new ad-hoc prompt template engineering strategies to perform anonymized Data Augmentation and assess the effectiveness of LLM-based approaches in providing anonymized data. To validate the anonymization guarantees provided by LLMs, we exploited the pyCanon library, designed to assess the values of the parameters associated with the most common privacy-preserving techniques via anonymization. Our experiments conducted on real-world datasets demonstrate that LLMs yield promising results for this goal.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成と理解の両方において高度な能力を示し、それらのデータアーカイブへの応用は、データ対象に関する機密情報の民営化を促進する可能性がある。
実際、データに含まれる情報は、敏感で個人を特定できる詳細を含んでいることが多い。
このデータは、保護されていないとしても、開示と身元確認の両方の観点からプライバシー上のリスクをもたらす可能性がある。
さらに、k匿名性などの匿名化技術の適用により、データソース内のデータ量が大幅に削減され、予測プロセスの有効性が低下する可能性がある。
本研究では,LLMが匿名化データソースを充実させる能力について,その匿名性に影響を与えることなく検討した。
この目的のために、匿名化されたデータ拡張を行うための新しいアドホックプロンプトテンプレートエンジニアリング戦略を設計し、匿名化されたデータを提供する上でLLMベースのアプローチの有効性を評価する。
LLMによって提供される匿名化保証を検証するため、匿名化により最も一般的なプライバシ保存技術に関連するパラメータの値を評価するために、pyCanonライブラリを利用した。
実世界のデータセットを用いて行った実験は, LLMがこの目標に対して有望な結果をもたらすことを示した。
関連論文リスト
- SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。
提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。
次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文 参考訳(メタデータ) (2024-12-30T01:10:10Z) - Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data [18.984529269623135]
本研究では,生成データによる微調整が真のプライバシ向上に寄与するか,新たなプライバシリスクを導入するかを検討する。
プライバシリスクを測定するために、Pythia Model SuiteとOpen Pre-trained Transformerを使用します。
論文 参考訳(メタデータ) (2024-09-12T10:14:12Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Large Language Models are Advanced Anonymizers [2.9373912230684565]
大規模言語モデル(LLM)に関する最近のプライバシー調査では、オンラインテキストから個人データを推測することで、ほぼ人間レベルのパフォーマンスを達成することが示されている。
既存のテキスト匿名化手法は現在、規制要件や敵の脅威に欠けています。
逆LLM推論の面における匿名性を評価するための新しい設定法を提案する。
論文 参考訳(メタデータ) (2024-02-21T14:44:00Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Releasing survey microdata with exact cluster locations and additional
privacy safeguards [77.34726150561087]
本稿では,プライバシ保護を付加した独自のマイクロデータの有用性を活用した,代替的なマイクロデータ配信戦略を提案する。
当社の戦略は, 再識別の試みにおいても, 任意の属性に対する再識別リスクを60~80%削減する。
論文 参考訳(メタデータ) (2022-05-24T19:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。