論文の概要: Privately generating tabular data using language models
- arxiv url: http://arxiv.org/abs/2306.04803v1
- Date: Wed, 7 Jun 2023 21:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:23:12.890217
- Title: Privately generating tabular data using language models
- Title(参考訳): 言語モデルを用いた個人用表データ生成
- Authors: Alexandre Sablayrolles, Yue Wang, Brian Karrer
- Abstract要約: テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。
本稿では,テーブル内の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案し,検討する。
- 参考スコア(独自算出の注目度): 80.67328256105891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privately generating synthetic data from a table is an important brick of a
privacy-first world. We propose and investigate a simple approach of treating
each row in a table as a sentence and training a language model with
differential privacy. We show this approach obtains competitive results in
modelling tabular data across multiple datasets, even at small scales that
favor alternative methods based on marginal distributions.
- Abstract(参考訳): テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。
本稿では,表の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案する。
このアプローチは,限界分布に基づく代替手法を好む小規模であっても,複数のデータセットにわたる表データモデリングにおいて,競合的な結果が得られることを示す。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Synthesizing Realistic Data for Table Recognition [4.500373384879752]
本稿では,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。
中国の金融発表から表の構造と内容を活用することで、我々は最初の広範囲な表アノテーションデータセットを開発した。
我々は、中国の金融発表領域における実世界の複合表の初歩的ベンチマークを確立し、このベンチマークを用いて、我々の合成データに基づいてトレーニングされたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-04-17T06:36:17Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [5.102332247789348]
言語モデル構造に基づく新しいタイプのデータシンセサイザーであるTabulaを開発した。
本研究では,現在LLMをベースとした最先端アルゴリズムと比較して,Tabulaのトレーニング時間は平均46.2%削減されていることを示す。
また、合成データの質を保ちながら、トレーニング時間を著しく短縮するトークンシーケンス圧縮戦略を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。