論文の概要: GReaTER: Generate Realistic Tabular data after data Enhancement and Reduction
- arxiv url: http://arxiv.org/abs/2503.15564v1
- Date: Wed, 19 Mar 2025 04:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 19:01:18.556066
- Title: GReaTER: Generate Realistic Tabular data after data Enhancement and Reduction
- Title(参考訳): GReaTER:データ強化と削減後のリアルなタブラリデータを生成する
- Authors: Tung Sum Thomas Kwok, Chi-Hua Wang, Guang Cheng,
- Abstract要約: 本稿では,現実的なタブラリデータを生成するためのGReaTERを提案する。
GReaTERは、データセマンティックエンハンスメントシステムとクロステーブル接続方法を含む。
GReaTERはGReaTフレームワークより優れていることを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 9.784347635082232
- License:
- Abstract: Tabular data synthesis involves not only multi-table synthesis but also generating multi-modal data (e.g., strings and categories), which enables diverse knowledge synthesis. However, separating numerical and categorical data has limited the effectiveness of tabular data generation. The GReaT (Generate Realistic Tabular Data) framework uses Large Language Models (LLMs) to encode entire rows, eliminating the need to partition data types. Despite this, the framework's performance is constrained by two issues: (1) tabular data entries lack sufficient semantic meaning, limiting LLM's ability to leverage pre-trained knowledge for in-context learning, and (2) complex multi-table datasets struggle to establish effective relationships for collaboration. To address these, we propose GReaTER (Generate Realistic Tabular Data after data Enhancement and Reduction), which includes: (1) a data semantic enhancement system that improves LLM's understanding of tabular data through mapping, enabling better in-context learning, and (2) a cross-table connecting method to establish efficient relationships across complex tables. Experimental results show that GReaTER outperforms the GReaT framework.
- Abstract(参考訳): タブラルデータ合成は、マルチテーブル合成だけでなく、多様な知識合成を可能にするマルチモーダルデータ(例えば文字列やカテゴリ)も生成する。
しかし、数値データと分類データの分離は、表型データ生成の有効性を制限している。
GReaT(Generate Realistic Tabular Data)フレームワークは、Large Language Models(LLM)を使用して行全体をエンコードし、データ型をパーティションする必要がない。
それにもかかわらず、このフレームワークのパフォーマンスは、(1)表型データエントリには十分な意味が欠けていること、(2)文脈内学習に事前訓練された知識を活用するLLMの能力を制限すること、(2)複雑なマルチテーブルデータセットは協調のための効果的な関係を確立するのに苦労すること、の2つの問題によって制約されている。
これらの問題に対処するため、GReaTER (Generate Realistic Tabular Data after data Enhancement and Reduction) を提案し、(1) LLMによる表データの理解を改善し、文脈内学習を改良し、(2)複雑なテーブル間の効率的な関係を確立するためのクロステーブル接続手法を提案する。
GReaTERはGReaTフレームワークより優れていることを示す実験結果を得た。
関連論文リスト
- TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data [0.42881773214459123]
Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱う柔軟なフレームワークである。
あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
論文 参考訳(メタデータ) (2025-01-21T10:06:19Z) - On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing [29.144451092549048]
データ計算の欠如は、データセットの完全性を達成するために、生データセットの欠落した値をインプットすることを目的としている。
1)数値データと分類データしかサポートしていないか,2)不満足な性能を示す。
We propose UnIMP, a Unified IMPutation framework that leverageing LLM and high-order message passing to enhance the imputation of mixed-type data。
論文 参考訳(メタデータ) (2025-01-04T05:05:44Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - GT2Vec: Large Language Models as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
GT2Vecは、大規模言語モデルを利用して、テキストとグラフデータを共同でエンコードするフレームワークである。
従来の作業とは異なり、グラフやテキスト空間をより効果的に整合させるために、コントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。