論文の概要: AIGT: AI Generative Table Based on Prompt
- arxiv url: http://arxiv.org/abs/2412.18111v1
- Date: Tue, 24 Dec 2024 02:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:19.197457
- Title: AIGT: AI Generative Table Based on Prompt
- Title(参考訳): AIGT: Promptに基づいたAI生成テーブル
- Authors: Mingming Zhang, Zhiqing Xiao, Guoshan Lu, Sai Wu, Weiqiang Wang, Xing Fu, Can Yi, Junbo Zhao,
- Abstract要約: 我々は,AI生成テーブル(AIGT)を導入し,高品質な合成データを生成する。
20のパブリックデータセットと2つの実業界データセットのうち14の面で、最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 32.50242041969008
- License:
- Abstract: Tabular data, which accounts for over 80% of enterprise data assets, is vital in various fields. With growing concerns about privacy protection and data-sharing restrictions, generating high-quality synthetic tabular data has become essential. Recent advancements show that large language models (LLMs) can effectively gener-ate realistic tabular data by leveraging semantic information and overcoming the challenges of high-dimensional data that arise from one-hot encoding. However, current methods do not fully utilize the rich information available in tables. To address this, we introduce AI Generative Table (AIGT) based on prompt enhancement, a novel approach that utilizes meta data information, such as table descriptions and schemas, as prompts to generate ultra-high quality synthetic data. To overcome the token limit constraints of LLMs, we propose long-token partitioning algorithms that enable AIGT to model tables of any scale. AIGT achieves state-of-the-art performance on 14 out of 20 public datasets and two real industry datasets within the Alipay risk control system.
- Abstract(参考訳): 企業データ資産の80%以上を占めるタブラルデータは、さまざまな分野で不可欠である。
プライバシー保護とデータ共有の制限に関する懸念が高まっているため、高品質な合成表データを生成することが不可欠になっている。
近年の進歩により,大言語モデル(LLM)は,意味情報を活用し,一点符号化から生じる高次元データの課題を克服することにより,現実的な表形式データを効果的に生成できることが示されている。
しかし、現在の手法では、テーブルで利用可能な豊富な情報を十分に利用していない。
そこで我々は,AI生成テーブル(AIGT)を,テーブル記述やスキーマなどのメタデータ情報を活用して,高品質な合成データを生成する手法として導入する。
LLMのトークン制限を克服するため、AIGTが任意のスケールのテーブルをモデル化できる長期分割アルゴリズムを提案する。
AIGTは、Alipayリスク管理システム内の20のパブリックデータセットと2つの実業界データセットのうち、14の最先端のパフォーマンスを達成する。
関連論文リスト
- Enhancing Table Representations with LLM-powered Synthetic Data Generation [0.565395466029518]
データ駆動型企業におけるデータ変換活動の文脈における表の類似性を明確に定義する。
本稿では,大規模言語モデルのコード生成とデータ操作機能を活用した,新しい合成データ生成パイプラインを提案する。
パイプラインによって生成された合成データは,提案した表類似性の定義と一致し,表表現を大幅に強化することを示す。
論文 参考訳(メタデータ) (2024-11-04T19:54:07Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - TAEGAN: Generating Synthetic Tabular Data For Data Augmentation [13.612237747184363]
Tabular Auto-Encoder Generative Adversarial Network (TAEGAN)は、高品質な表データを生成するための改良されたGANベースのフレームワークである。
TAEGANは、マスク付きオートエンコーダをジェネレータとして採用し、自己監督型事前学習のパワーを初めて導入した。
論文 参考訳(メタデータ) (2024-10-02T18:33:06Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。