Fugu-MT 論文翻訳(概要): Differentially Private Tabular Data Synthesis using Large Language Models

論文の概要: Differentially Private Tabular Data Synthesis using Large Language Models

arxiv url: http://arxiv.org/abs/2406.01457v1
Date: Mon, 3 Jun 2024 15:43:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 22:20:27.976153
Title: Differentially Private Tabular Data Synthesis using Large Language Models
Title（参考訳）: 大規模言語モデルを用いた微分プライベートタブラルデータ合成
Authors: Toan V. Tran, Li Xiong,
Abstract要約: 本稿ではDP-LLMTGenについて紹介する。 DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。微調整LDMをサンプリングすることで合成データを生成する。
参考スコア（独自算出の注目度）: 6.6376578496141585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthetic tabular data generation with differential privacy is a crucial problem to enable data sharing with formal privacy. Despite a rich history of methodological research and development, developing differentially private tabular data generators that can provide realistic synthetic datasets remains challenging. This paper introduces DP-LLMTGen -- a novel framework for differentially private tabular data synthesis that leverages pretrained large language models (LLMs). DP-LLMTGen models sensitive datasets using a two-stage fine-tuning procedure with a novel loss function specifically designed for tabular data. Subsequently, it generates synthetic data through sampling the fine-tuned LLMs. Our empirical evaluation demonstrates that DP-LLMTGen outperforms a variety of existing mechanisms across multiple datasets and privacy settings. Additionally, we conduct an ablation study and several experimental analyses to deepen our understanding of LLMs in addressing this important problem. Finally, we highlight the controllable generation ability of DP-LLMTGen through a fairness-constrained generation setting.
Abstract（参考訳）: 差分プライバシを持つ合成表データ生成は、正式なプライバシを持つデータ共有を実現する上で重要な問題である。方法論的な研究と開発の歴史は豊富だが、現実的な合成データセットを提供するための、微分的にプライベートな表型データジェネレータを開発することは、依然として困難である。本稿ではDP-LLMTGenについて述べる。DP-LLMTGenは、事前学習された大規模言語モデル(LLM)を利用する、微分プライベートな表形式データ合成のための新しいフレームワークである。 DP-LLMTGenは、2段階の微調整手順と表データに特化して設計された新しい損失関数を用いて、センシティブなデータセットをモデル化する。その後、微調整LDMをサンプリングして合成データを生成する。我々の経験的評価は、DP-LLMTGenが複数のデータセットとプライバシ設定にまたがる様々な既存のメカニズムより優れていることを示している。さらに、この重要な問題に対処する上で、LLMの理解を深めるために、アブレーション研究といくつかの実験的分析を行う。最後に,DP-LLMTGenの制御可能な生成能力を,公平性に制約された生成設定により強調する。

関連論文リスト

DP-RFT: Learning to Generate Synthetic Text via Differentially Private Reinforcement Fine-Tuning [51.35628297101575]
差分的プライベート(DP)合成データ生成は,個人データ上での大規模言語モデル(LLM)の開発において重要な役割を担っている。 LLMを用いた合成データ生成のためのオンライン強化学習アルゴリズムDP-RFTを導入する。 DP-RFTは,ニュース記事や会議録,医療記事の要約など,長文およびドメイン固有の合成データ生成に有用である。
論文参考訳（メタデータ） (2026-02-20T22:03:56Z)
A Comprehensive Survey of Synthetic Tabular Data Generation [27.112327373017457]
タブラルデータ(Tabular data)は、様々な現実世界のアプリケーションにまたがる最も一般的かつ重要なデータフォーマットの1つである。データ不足、プライバシーの懸念、クラス不均衡といった問題によって制約されることが多い。合成データ生成は、生成モデルを利用して実際のデータセットの分布を学習する、有望なソリューションとして登場した。
論文参考訳（メタデータ） (2025-04-23T08:33:34Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文参考訳（メタデータ） (2025-02-05T17:21:01Z)
SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-27T15:12:27Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-06-15T06:26:17Z)
Synthetic location trajectory generation using categorical diffusion models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文参考訳（メタデータ） (2024-02-19T15:57:39Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。これにより、結果データの品質とプライバシの間にトレードオフが生じます。我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文参考訳（メタデータ） (2023-08-28T16:35:43Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文参考訳（メタデータ） (2022-10-12T15:03:28Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
Differentially Private Synthetic Medical Data Generation using Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文参考訳（メタデータ） (2020-12-22T01:03:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。