論文の概要: Measuring LLM Sensitivity in Transformer-based Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2509.20768v1
- Date: Thu, 25 Sep 2025 05:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.713113
- Title: Measuring LLM Sensitivity in Transformer-based Tabular Data Synthesis
- Title(参考訳): 変圧器を用いた語彙データ合成におけるLLM感度の測定
- Authors: Maria F. Davila R, Azizjon Turaev, Wolfram Wingerath,
- Abstract要約: トランスフォーマーベースのモデルは、データ品質の点で他の最先端モデルよりも優れている。
高い計算コストは、プロサマーハードウェアを持つエンドユーザーには実現不可能な場合があります。
GReaTは、REaLTabFormerよりも低いランタイムを一貫して達成し、最も大きなデータセットでしか実行できない。
- 参考スコア(独自算出の注目度): 0.451520252387513
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic tabular data is used for privacy-preserving data sharing and data-driven model development. Its effectiveness, however, depends heavily on the used Tabular Data Synthesis (TDS) tool. Recent studies have shown that Transformer-based models outperform other state-of-the-art models such as Generative Adversarial Networks (GANs) and Diffusion models in terms of data quality. However, Transformer-based models also come with high computational costs, making them sometimes unfeasible for end users with prosumer hardware. This study presents a sensitivity assessment on how the choice of hyperparameters, such as number of layers or hidden dimension affects the quality of the resultant synthetic data and the computational performance. It is performed across two tools, GReaT and REaLTabFormer, evaluating 10 model setups that vary in architecture type and depth. We assess the sensitivity on three dimensions: runtime, machine learning (ML) utility, and similarity to real data distributions. Experiments were conducted on four real-world datasets. Our findings reveal that runtime is proportional to the number of hyperparameters, with shallower configurations completing faster. GReaT consistently achieves lower runtimes than REaLTabFormer, and only on the largest dataset they have comparable runtime. For small datasets, both tools achieve synthetic data with high utility and optimal similarity, but on larger datasets only REaLTabFormer sustains strong utility and similarity. As a result, REaLTabFormer with lightweight LLMs provides the best balance, since it preserves data quality while reducing computational requirements. Nonetheless, its runtime remains higher than that of GReaT and other TDS tools, suggesting that efficiency gains are possible but only up to a certain level.
- Abstract(参考訳): 合成表データは、プライバシ保護データ共有とデータ駆動型モデル開発に使用される。
しかし、その有効性は使用済みのタブラルデータ合成(TDS)ツールに大きく依存している。
近年の研究では、トランスフォーマーベースのモデルは、データ品質の観点から、ジェネレーティブ・ディフュージョン・モデル(GAN)やディフュージョン・モデル(Diffusion model)など、他の最先端モデルよりも優れていることが示されている。
しかし、Transformerベースのモデルにも高い計算コストが伴うため、プロシューマーハードウェアを持つエンドユーザーには実現不可能な場合もある。
本研究では, 層数や隠れ次元などのハイパーパラメータの選択が, 結果の合成データの品質や計算性能に与える影響について, 感度評価を行った。
GReaTとREaLTabFormerの2つのツールで実行され、アーキテクチャタイプと深さの異なる10のモデルセットアップを評価している。
ランタイム,機械学習(ML)ユーティリティ,および実データ分布との類似性という,3つの次元の感度を評価する。
4つの実世界のデータセットで実験が行われた。
以上の結果から,ランタイムはハイパーパラメータの数に比例し,より浅い構成がより高速であることがわかった。
GReaTは、REaLTabFormerよりも低いランタイムを一貫して達成し、最も大きなデータセットでしか実行できない。
小さなデータセットでは、両方のツールは高いユーティリティと最適な類似性で合成データを達成するが、より大きなデータセットでは、REaLTabFormerのみが強力なユーティリティと類似性を維持している。
その結果、軽量なLCMを持つREaLTabFormerは、計算要求を減らしながらデータ品質を保ちながら最良のバランスを提供する。
それでも、そのランタイムはGReaTや他のTDSツールよりも高いままであり、効率の向上は可能であるが、特定のレベルまでしかできないことを示唆している。
関連論文リスト
- TABFAIRGDT: A Fast Fair Tabular Data Generator using Autoregressive Decision Trees [11.0044761900691]
本稿では,自己回帰決定木を用いた公正な合成データ生成手法であるTABFAIRGDTを紹介する。
ベンチマークフェアネスデータセット上でTABFAIRGDTを評価し,SOTA(State-of-the-art)深部生成モデルよりも優れていることを示す。
注目すべきなのは、TABFAIRGDTは、さまざまなデータセットサイズで、最速のSOTAベースラインよりも平均72%のスピードアップを実現していることだ。
論文 参考訳(メタデータ) (2025-09-24T09:35:52Z) - A Comparative Study of Open-Source Libraries for Synthetic Tabular Data Generation: SDV vs. SynthCity [0.0]
合成データジェネレータは、実データの統計的および構造的特性を複製することで、有望なソリューションを提供する。
本研究では,広く利用されている2つのオープンソースライブラリの合成データ生成装置の性能評価を行った。
論文 参考訳(メタデータ) (2025-06-21T22:45:40Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Tabular Data Generation Models: An In-Depth Survey and Performance Benchmarks with Extensive Tuning [2.855894241049707]
16個のデータセットに対する広範囲なベンチマークにより,データセット固有のチューニングが表型データ生成のための最新の5つのモデルファミリに与える影響について検討した。
我々のベンチマークは、ほとんどのモデルにおいて、大規模データセット固有のチューニングが元の構成よりも大幅に性能を向上することを示した。
論文 参考訳(メタデータ) (2024-06-18T07:27:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。