論文の概要: Towards High Supervised Learning Utility Training Data Generation: Data Pruning and Column Reordering
- arxiv url: http://arxiv.org/abs/2507.10088v1
- Date: Mon, 14 Jul 2025 09:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.581146
- Title: Towards High Supervised Learning Utility Training Data Generation: Data Pruning and Column Reordering
- Title(参考訳): 高度に監視された学習ユーティリティトレーニングデータ生成に向けて:データプルーニングとカラムリオーダ
- Authors: Tung Sum Thomas Kwok, Zeyong Zhang, Chi-Hua Wang, Guang Cheng,
- Abstract要約: 教師付き学習('SL')モデルトレーニングのためのタブラルデータ合成は、医療、金融、小売といった産業で人気を集めている。
表データジェネレータの進歩にもかかわらず、合成データで訓練されたモデルは、元のデータで訓練されたモデルと比べて、しばしば性能が劣る。
グラフデータ合成にデータ中心の手法を統合するために,Pruning and Re Ordering ('PRRO')を提案する。
PRROはデータプルーニングを導入し、テーブルジェネレータを高信号対雑音比の観測に向けて誘導し、合成データのクラス分布が元のデータと密接に一致していることを保証する。
- 参考スコア(独自算出の注目度): 8.95651356213224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data synthesis for supervised learning ('SL') model training is gaining popularity in industries such as healthcare, finance, and retail. Despite the progress made in tabular data generators, models trained with synthetic data often underperform compared to those trained with original data. This low SL utility of synthetic data stems from class imbalance exaggeration and SL data relationship overlooked by tabular generator. To address these challenges, we draw inspirations from techniques in emerging data-centric artificial intelligence and elucidate Pruning and ReOrdering ('PRRO'), a novel pipeline that integrates data-centric techniques into tabular data synthesis. PRRO incorporates data pruning to guide the table generator towards observations with high signal-to-noise ratio, ensuring that the class distribution of synthetic data closely matches that of the original data. Besides, PRRO employs a column reordering algorithm to align the data modeling structure of generators with that of SL models. These two modules enable PRRO to optimize SL utility of synthetic data. Empirical experiments on 22 public datasets show that synthetic data generated using PRRO enhances predictive performance compared to data generated without PRRO. Specifically, synthetic replacement of original data yields an average improvement of 26.74% and up to 871.46% improvement using PRRO, while synthetic appendant to original data results with PRRO-generated data results in an average improvement of 6.13% and up to 200.32%. Furthermore, experiments on six highly imbalanced datasets show that PRRO enables the generator to produce synthetic data with a class distribution that resembles the original data more closely, achieving a similarity improvement of 43%. Through PRRO, we foster a seamless integration of data synthesis to subsequent SL prediction, promoting quality and accessible data analysis.
- Abstract(参考訳): 教師付き学習('SL')モデルトレーニングのためのタブラルデータ合成は、医療、金融、小売といった産業で人気を集めている。
表データジェネレータの進歩にもかかわらず、合成データで訓練されたモデルは、元のデータで訓練されたモデルと比べて、しばしば性能が劣る。
合成データの低SLユーティリティは、表生成器が見落としているクラス不均衡の誇張とSLデータ関係に起因している。
これらの課題に対処するため、我々は、データ中心のテクニックを表データ合成に統合する新しいパイプラインである、新しいデータ中心の人工知能と解明されたプルーニングとリオーダリング('PRRO')のテクニックからインスピレーションを得ている。
PRROはデータプルーニングを導入し、テーブルジェネレータを高信号対雑音比の観測に向けて誘導し、合成データのクラス分布が元のデータと密接に一致することを保証する。
さらに、PRROは列の並べ替えアルゴリズムを用いて、ジェネレータのデータモデリング構造とSLモデルのデータモデリング構造を整合させる。
これら2つのモジュールは、PRROが合成データのSLユーティリティを最適化することを可能にする。
22の公開データセットに対する実証実験により、PRROを用いて生成された合成データは、PRROを使わずに生成されたデータと比較して予測性能を向上させることが示された。
具体的には、原データの合成置換は、PRROを用いて平均26.74%、最大871.46%の改善をもたらす一方、PRRO生成データによる原データの合成付加物は平均6.13%、最大200.32%の改善をもたらす。
さらに、6つの高度に不均衡なデータセットに対する実験により、PRROは生成元が元のデータにより近いクラス分布を持つ合成データを生成することができ、43%の類似性改善が達成された。
PRROにより、データ合成のシームレスな統合を後続のSL予測に促進し、品質とアクセス可能なデータ分析を促進する。
関連論文リスト
- Procedural Environment Generation for Tool-Use Agents [55.417058694785325]
我々はRandomWorldを紹介した。これは対話型ツールと合成ツール利用データの手続き的生成のためのパイプラインである。
我々は,SFTとRLによるRandomWorldの合成データによるモデル調整により,様々なツール使用ベンチマークが改良されたことを示す。
論文 参考訳(メタデータ) (2025-05-21T14:10:06Z) - Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Assessing Generative Models for Structured Data [0.0]
本稿では,データ内のカラム間依存関係を調べることで,実データに対して合成データを評価するための厳密な手法を提案する。
大規模言語モデル (GPT-2) は,数発のプロンプトによってクエリされた場合と微調整された場合の両方で,GAN (CTGAN) モデルは元の実データに類似した依存関係を持つデータを生成しないことがわかった。
論文 参考訳(メタデータ) (2025-03-26T18:19:05Z) - Improving Equity in Health Modeling with GPT4-Turbo Generated Synthetic Data: A Comparative Study [1.85743121594882]
デモグラフィック群は、しばしば医学データセットで異なるレートで表現される。
これらの違いは機械学習アルゴリズムに偏りを生じさせ、より表現しやすいグループのパフォーマンスが向上する。
1つの有望な解決策は、非表現的データセットの潜在的な悪影響を軽減するために合成データを生成することである。
論文 参考訳(メタデータ) (2024-12-20T20:49:17Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。