Fugu-MT 論文翻訳(概要): TabuLa: Harnessing Language Models for Tabular Data Synthesis

論文の概要: TabuLa: Harnessing Language Models for Tabular Data Synthesis

arxiv url: http://arxiv.org/abs/2310.12746v1
Date: Thu, 19 Oct 2023 13:50:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 15:05:06.543851
Title: TabuLa: Harnessing Language Models for Tabular Data Synthesis
Title（参考訳）: TabuLa: 語彙データ合成のためのハーネス言語モデル
Authors: Zilong Zhao, Robert Birke and Lydia Chen
Abstract要約: 言語モデル構造に基づく新しいタイプのデータシンセサイザーであるTabulaを開発した。本研究では,現在LLMをベースとした最先端アルゴリズムと比較して,Tabulaのトレーニング時間は平均46.2%削減されていることを示す。また、合成データの質を保ちながら、トレーニング時間を著しく短縮するトークンシーケンス圧縮戦略を提案する。
参考スコア（独自算出の注目度）: 5.102332247789348
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given the ubiquitous use of tabular data in industries and the growing concerns in data privacy and security, tabular data synthesis emerges as a critical research area. The recent state-of-the-art methods show that large language models (LLMs) can be adopted to generate realistic tabular data. As LLMs pre-process tabular data as full text, they have the advantage of avoiding the curse of dimensionality associated with one-hot encoding high-dimensional data. However, their long training time and limited re-usability on new tasks prevent them from replacing exiting tabular generative models. In this paper, we propose Tabula, a tabular data synthesizer based on the language model structure. Through Tabula, we demonstrate the inherent limitation of employing pre-trained language models designed for natural language processing (NLP) in the context of tabular data synthesis. Our investigation delves into the development of a dedicated foundational model tailored specifically for tabular data synthesis. Additionally, we propose a token sequence compression strategy to significantly reduce training time while preserving the quality of synthetic data. Extensive experiments on six datasets demonstrate that using a language model structure without loading the well-trained model weights yields a better starting model for tabular data synthesis. Moreover, the Tabula model, previously trained on other tabular data, serves as an excellent foundation model for new tabular data synthesis tasks. Additionally, the token sequence compression method substantially reduces the model's training time. Results show that Tabula averagely reduces 46.2% training time per epoch comparing to current LLMs-based state-of-the-art algorithm and consistently achieves even higher synthetic data utility.
Abstract（参考訳）: 産業における表データのユビキタス利用とデータプライバシとセキュリティに対する懸念の高まりを考えると、表データの合成は重要な研究分野として現れている。最近の最先端の手法では、大きな言語モデル(llm)を使って現実的な表データを生成することができる。 LLMは表データをフルテキストとして前処理するので、高次元データを符号化するワンホットに関連する次元の呪いを避ける利点がある。しかし、その長いトレーニング時間と新しいタスクの再使用性に制限があるため、表生成モデルを廃止できない。本稿では,言語モデル構造に基づく表型データ合成器であるTabulaを提案する。本研究では,自然言語処理(NLP)のための事前学習言語モデルを用いた表層データ合成の文脈における制約について述べる。本研究は,表型データ合成に特化した基礎モデルの開発を念頭に置いている。さらに,合成データの品質を維持しつつ,トレーニング時間を著しく短縮するトークンシーケンス圧縮戦略を提案する。 6つのデータセットに関する広範な実験により、よく訓練されたモデルの重みをロードせずに言語モデル構造を使用することで、表データ合成のためのより良い出発モデルが得られることが示されている。さらに、以前他の表データに基づいて訓練されたTabulaモデルは、新しい表データ合成タスクの優れた基礎モデルとして機能する。さらに、トークンシーケンス圧縮方法は、モデルのトレーニング時間を実質的に削減する。その結果、Tabula は現在の LLM ベースの最先端アルゴリズムと比較して、エポック毎のトレーニング時間を平均46.2% 削減し、より高い合成データユーティリティを一貫して達成していることがわかった。

関連論文リスト

TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction Tuning [18.178908245791582]
TableDreamerは、テーブルインストラクションチューニングのための、プログレッシブで弱いガイド付きデータ合成フレームワークである。 Llama3.1-8B-インストラクトの平均精度は11.62%(49.07%から60.69%)、合成データは27K GPT-4oである。これは、より多くのトレーニングデータを使用する最先端のデータ合成ベースラインよりも優れています。
論文参考訳（メタデータ） (2025-06-10T09:57:59Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Tabby: Tabular Data Synthesis with Language Models [11.309789039228496]
Tabbyは、標準的なTransformer言語モデルアーキテクチャに対する、シンプルだが強力なトレーニング後修正である。 Tabbyは、実際のデータに近いか等しいデータ品質が得られることを示す。
論文参考訳（メタデータ） (2025-03-04T00:32:15Z)
Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。融合法を LLM-Boost と PFN-Boost と命名した。多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文参考訳（メタデータ） (2025-02-04T19:30:41Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。 TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文参考訳（メタデータ） (2024-06-27T17:55:31Z)
LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。 LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。 LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文参考訳（メタデータ） (2024-06-25T16:03:50Z)
Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文参考訳（メタデータ） (2024-05-02T10:05:16Z)
Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。 101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
AutoDiff: combining Auto-encoder and Diffusion model for tabular data synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。本稿では,合成表データを生成するために拡散モデルのパワーを利用する。生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文参考訳（メタデータ） (2023-10-24T03:15:19Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。これにより、結果データの品質とプライバシの間にトレードオフが生じます。我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文参考訳（メタデータ） (2023-08-28T16:35:43Z)
Privately generating tabular data using language models [80.67328256105891]
テーブルからプライベートに合成データを生成することは、プライバシ優先の世界の重要なブロックである。本稿では,テーブル内の各行を文として扱い,差分プライバシーを持つ言語モデルを訓練する簡単な手法を提案し,検討する。
論文参考訳（メタデータ） (2023-06-07T21:53:14Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文参考訳（メタデータ） (2022-11-23T00:04:57Z)
PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文参考訳（メタデータ） (2022-09-15T08:58:42Z)
Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文参考訳（メタデータ） (2020-11-03T16:58:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。