論文の概要: Exploring the Heterogeneity of Tabular Data: A Diversity-aware Data Generator via LLMs
- arxiv url: http://arxiv.org/abs/2512.21915v1
- Date: Fri, 26 Dec 2025 08:02:51 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:57:47.348591
- Title: Exploring the Heterogeneity of Tabular Data: A Diversity-aware Data Generator via LLMs
- Title(参考訳): 語彙データの不均一性を探る: LLMによる多様性を考慮したデータジェネレータ
- Authors: Yafeng Tang, Xiaoou Ding, Jianzhuo Du, Zishuo Yan, Zhuang Ma, Zheng Liang, Zekai Qian, Hongzhi Wang,
- Abstract要約: DATE(Diversity-Aware Tabular data gEnerator)は、文脈内学習のための高品質で分散的な例を作成するフレームワークである。
DATEはLarge Language Models(LLM)を使用して、分割された分布の多様性をフィードバックとして決定木推論で探索し、各サブセットに対して高品質なラベル付きデータを生成する。
DATEは平均23.75%のエラー率で100のデータしか生成しない。
- 参考スコア(独自算出の注目度): 7.355858495660162
- License:
- Abstract: Tabular data generation has become increasingly essential for enabling robust machine learning applications, which require large-scale, high-quality data. Existing solutions leverage generative models to learn original data distributions. However, real-world data are naturally heterogeneous with diverse distributions, making it challenging to obtain a universally good model for diverse data generation. To address this limitation, we introduce Diversity-Aware Tabular data gEnerator (DATE), a framework that (i) prepares high-quality and distributionally distinct examples for in-context learning by effectively partitioning the original heterogeneous data into multiple diverse subsets; (ii) harnesses Large Language Models (LLMs) to explore the diversity of the partitioned distribution with decision tree reasoning as feedback, generating high-quality labeled data for each subset. However, the massive generated data inherently involves a trade-off between diversity and quality. To integrate this issue, existing solutions greedily select the validation-best data. However, we prove that the selection in heterogeneous settings does not possess the greedy-choice property, and design a Multi-Arm Bandit-based sampling algorithm that balances the diversity and quality of generated data. Extensive experiments on tabular classification and regression benchmarks demonstrate that DATE consistently outperforms state-of-the-art GAN-based and LLM-based methods. On average, DATE achieves a 23.75% reduction in error rate with just 100 generated data. Empirically, we demonstrate that data generated by DATE can improve the accuracy of Direct Preference Optimization (DPO) and enhance the reasoning capability of LLMs on the target data. Code is available at https://github.com/windblow32/DATE.
- Abstract(参考訳): 大規模で高品質なデータを必要とする、堅牢な機械学習アプリケーションの実現には、タブラルデータ生成がますます不可欠になっている。
既存のソリューションは生成モデルを利用してオリジナルのデータ分布を学習する。
しかし、実世界のデータは様々な分布と自然に異質であり、多様なデータ生成のための普遍的に良いモデルを得ることは困難である。
この制限に対処するために、DATE(Diversity-Aware Tabular Data gEnerator)というフレームワークを紹介します。
一 元の異種データを多種多様なサブセットに効果的に分割することにより、文脈内学習の高品質で分散的な例を作成すること。
(二)大言語モデル(LLM)を用いて分割分布の多様性を探り、決定木推論をフィードバックとして、各サブセットに対して高品質なラベル付きデータを生成する。
しかし、大量のデータには本質的に多様性と品質のトレードオフが伴う。
この問題を統合するために、既存のソリューションは厳格にバリデーション-ベストデータを選択する。
しかし、不均質な設定における選択が欲求選択性を持たないことを証明し、生成したデータの多様性と品質のバランスをとるマルチArm Banditに基づくサンプリングアルゴリズムを設計する。
表の分類と回帰ベンチマークに関する大規模な実験により、DATEは最先端のGANベースおよびLLMベースの手法を一貫して上回っていることが示された。
DATEは平均23.75%のエラー率で100のデータしか生成しない。
実験により、DATEによって生成されたデータにより、直接選好最適化(DPO)の精度が向上し、目標データに対するLLMの推論能力が向上することが実証された。
コードはhttps://github.com/windblow32/DATEで入手できる。
関連論文リスト
- Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection [45.327105807111934]
既存のアプローチは通常、1次元または複数次元のスコアベースの選択に依存する。
本稿では,データ選択時の品質と多様性を両立するOrthogonal Diversity-Aware Selection (ODiS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-21T03:37:31Z) - CausalDiffTab: Mixed-Type Causal-Aware Diffusion for Tabular Data Generation [6.449839514410505]
混合データを扱うために特別に設計された拡散モデルに基づく生成モデルCausalDiffTabを紹介する。
階層型先行核融合の原理に基づくハイブリッド適応因果正則化法を提案する。
7つのデータセットで実施された実験は、CausalDiffTabがすべてのメトリクスでベースラインメソッドを上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-17T05:48:44Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。
データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。