論文の概要: HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection
- arxiv url: http://arxiv.org/abs/2408.02927v1
- Date: Tue, 6 Aug 2024 03:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:09:28.179516
- Title: HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection
- Title(参考訳): HARMONIC: タブラルデータ合成とプライバシ保護のためのハーネスリングLLM
- Authors: Yuxin Wang, Duanyu Feng, Yongfu Dai, Zhengyu Chen, Jimin Huang, Sophia Ananiadou, Qianqian Xie, Hao Wang,
- Abstract要約: 本稿では,表データ生成と評価のための新しいフレームワークHARMONICを提案する。
本フレームワークは, 既存の手法と同等の性能を向上し, また, 合成データの有効性とプライバシーリスクを評価するための評価枠組みを実証する。
- 参考スコア(独自算出の注目度): 44.225151701532454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data serves as the fundamental foundation for advancing deep learning, particularly tabular data presented in a structured format, which is highly conducive to modeling. However, even in the era of LLM, obtaining tabular data from sensitive domains remains a challenge due to privacy or copyright concerns. Hence, exploring how to effectively use models like LLMs to generate realistic and privacy-preserving synthetic tabular data is urgent. In this paper, we take a step forward to explore LLMs for tabular data synthesis and privacy protection, by introducing a new framework HARMONIC for tabular data generation and evaluation. In the tabular data generation of our framework, unlike previous small-scale LLM-based methods that rely on continued pre-training, we explore the larger-scale LLMs with fine-tuning to generate tabular data and enhance privacy. Based on idea of the k-nearest neighbors algorithm, an instruction fine-tuning dataset is constructed to inspire LLMs to discover inter-row relationships. Then, with fine-tuning, LLMs are trained to remember the format and connections of the data rather than the data itself, which reduces the risk of privacy leakage. In the evaluation part of our framework, we develop specific privacy risk metrics DLT for LLM synthetic data generation, as well as performance evaluation metrics LLE for downstream LLM tasks. Our experiments find that this tabular data generation framework achieves equivalent performance to existing methods with better privacy, which also demonstrates our evaluation framework for the effectiveness of synthetic data and privacy risks in LLM scenarios.
- Abstract(参考訳): データは、深層学習、特に構造化フォーマットで表される表形式のデータを、モデリングに非常に適した基礎となる。
しかし、LLMの時代でさえ、機密ドメインから表データを取得することは、プライバシや著作権上の懸念から、依然として課題である。
したがって、LLMのようなモデルを効果的に活用して、現実的でプライバシに保護された合成表データを生成する方法については、急務である。
本稿では、表データ生成と評価のための新しいフレームワークであるHARMONICを導入することにより、表データ合成とプライバシー保護のためのLCMについて検討する。
我々のフレームワークの表形式のデータ生成では、継続事前学習に依存する従来の小規模LCMベースの方法とは異なり、タブ形式のデータを生成し、プライバシーを高めるために微調整を施した大規模LCMについて検討する。
k-nearest neighborsアルゴリズムのアイデアに基づいて、命令微調整データセットを構築し、LLMを刺激してロー間関係を発見する。
次に、微調整により、LLMはデータ自体よりもデータのフォーマットと接続を記憶するように訓練されるため、プライバシリークのリスクが軽減される。
本フレームワークの評価部では、LLM合成データ生成のための特定のプライバシリスク指標DLTと、下流LLMタスクのための性能評価指標LLEを開発する。
実験の結果, この表形式のデータ生成フレームワークは, 従来の手法と同等の性能を示し, また, LLMシナリオにおける合成データの有効性とプライバシリスクを評価するための評価フレームワークを実証した。
関連論文リスト
- Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data [19.93652217096443]
大規模言語モデル(LLM)は、特に微調整後の領域固有のタスクでかなりの成功を収めている。
現実世界のデータによる微調整は通常、特に事前トレーニングデータに微調整サンプルが存在する場合、プライバシー上のリスクにつながる。
LLM生成データによる微調整によってプライバシーが向上するか、さらなるプライバシーリスクが生じるのか?
論文 参考訳(メタデータ) (2024-09-12T10:14:12Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs [31.16117964915814]
訓練済みまたは微調整済みのモデルに格納された特定のデータを消去しようとする機械学習は、LLMにとって重要な保護措置として登場した。
構造的アンラーニング手法の開発を容易にするため,マルチシナリオデータセットをコンパイルするパイプラインであるPISTOLを提案する。
Llama2-7BモデルとMistral-7Bモデルの両方で4つの異なる未学習手法を用いてベンチマークを行う。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety [27.843894102000608]
我々は、大規模言語モデル(LLM)の安全性を評価し改善するためのオープンデータセットの最初の体系的なレビューを行う。
完全な合成データセットへのトレンドや、非英語データセットの明確な欠如など、データセットカバレッジのギャップといったトレンドを強調します。
当社のコントリビューションは,LLM安全性のためのオープンデータセットのリビングカタログであるSafetyPrompts.comに基づいています。
論文 参考訳(メタデータ) (2024-04-08T10:57:25Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。