論文の概要: When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2512.08875v1
- Date: Tue, 09 Dec 2025 18:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.082185
- Title: When Tables Leak: Attacking String Memorization in LLM-Based Tabular Data Generation
- Title(参考訳): テーブルのリーク: LLM ベースタブラルデータ生成における文字列記憶の攻撃
- Authors: Joshua Ward, Bochao Gu, Chi-Hua Wang, Guang Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、最近、高品質な合成データを生成する際、顕著な性能を示した。
一般的な実装は、トレーニングデータから数値桁の暗記パターンを再現することで、プライバシーを侵害する傾向を示す。
提案手法は,世代間,数値を戦略的に摂動させる新しいサンプリング戦略を含む2つの方法である。
- 参考スコア(独自算出の注目度): 7.12229180415536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently demonstrated remarkable performance in generating high-quality tabular synthetic data. In practice, two primary approaches have emerged for adapting LLMs to tabular data generation: (i) fine-tuning smaller models directly on tabular datasets, and (ii) prompting larger models with examples provided in context. In this work, we show that popular implementations from both regimes exhibit a tendency to compromise privacy by reproducing memorized patterns of numeric digits from their training data. To systematically analyze this risk, we introduce a simple No-box Membership Inference Attack (MIA) called LevAtt that assumes adversarial access to only the generated synthetic data and targets the string sequences of numeric digits in synthetic observations. Using this approach, our attack exposes substantial privacy leakage across a wide range of models and datasets, and in some cases, is even a perfect membership classifier on state-of-the-art models. Our findings highlight a unique privacy vulnerability of LLM-based synthetic data generation and the need for effective defenses. To this end, we propose two methods, including a novel sampling strategy that strategically perturbs digits during generation. Our evaluation demonstrates that this approach can defeat these attacks with minimal loss of fidelity and utility of the synthetic data.
- Abstract(参考訳): 大規模言語モデル (LLM) は、最近、高品質な表形式合成データを生成する際、顕著な性能を示した。
実際には、LLMを表データ生成に適用するための2つの主要なアプローチが出現している。
(i)表のデータセット上で直接小さなモデルを微調整し、
(ii) 文脈で提示された例でより大きなモデルを促すこと。
本研究では,両政権の一般的な実装は,学習データから数値桁の暗記パターンを再現することにより,プライバシーを侵害する傾向を示す。
このリスクを体系的に解析するために、生成した合成データのみに逆アクセスを仮定し、合成観測において数値桁の文字列列をターゲットとする、シンプルなNo-box Membership Inference Attack (MIA) を導入する。
このアプローチを用いることで、当社の攻撃は、幅広いモデルやデータセットにわたる重大なプライバシー漏洩を露呈し、場合によっては、最先端モデルに対する完全なメンバシップ分類器にもなります。
本研究は,LLMに基づく合成データ生成のユニークなプライバシ脆弱性と,効果的な防御の必要性を明らかにするものである。
そこで本研究では,世代間を戦略的に摂動させる新しいサンプリング戦略を含む2つの手法を提案する。
提案手法は,これらの攻撃を,合成データの忠実度と有用性の最小限の損失で打ち負かすことができることを示す。
関連論文リスト
- Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Assessing Generative Models for Structured Data [0.0]
本稿では,データ内のカラム間依存関係を調べることで,実データに対して合成データを評価するための厳密な手法を提案する。
大規模言語モデル (GPT-2) は,数発のプロンプトによってクエリされた場合と微調整された場合の両方で,GAN (CTGAN) モデルは元の実データに類似した依存関係を持つデータを生成しないことがわかった。
論文 参考訳(メタデータ) (2025-03-26T18:19:05Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。