論文の概要: Team, Then Trim: An Assembly-Line LLM Framework for High-Quality Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2602.04785v1
- Date: Wed, 04 Feb 2026 17:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.657254
- Title: Team, Then Trim: An Assembly-Line LLM Framework for High-Quality Tabular Data Generation
- Title(参考訳): Team, then Trim: 高品質なタブラルデータ生成のためのアセンブリ駆動LLMフレームワーク
- Authors: Congjing Zhang, Ryan Feng Lin, Ruoxuan Bao, Shuai Huang,
- Abstract要約: 本稿では,LLMの協力チームを通じて高品質なデータを合成するフレームワークであるTeam-then-Trim(T$2$)を紹介する。
T$2$では、ドメイン知識によってガイドされる特殊なLLMは、異なるデータコンポーネントを逐次生成する。
シミュレーションと実世界の両方のデータセットに対する実証的な結果は、T$2$が高品質なデータを生成する上で最先端の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 4.818677616222802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While tabular data is fundamental to many real-world machine learning (ML) applications, acquiring high-quality tabular data is usually labor-intensive and expensive. Limited by the scarcity of observations, tabular datasets often exhibit critical deficiencies, such as class imbalance, selection bias, and low fidelity. To address these challenges, building on recent advances in Large Language Models (LLMs), this paper introduces Team-then-Trim (T$^2$), a framework that synthesizes high-quality tabular data through a collaborative team of LLMs, followed by a rigorous three-stage plug-in data quality control (QC) pipeline. In T$^2$, tabular data generation is conceptualized as a manufacturing process: specialized LLMs, guided by domain knowledge, are tasked with generating different data components sequentially, and the resulting products, i.e., the synthetic data, are systematically evaluated across multiple dimensions of QC. Empirical results on both simulated and real-world datasets demonstrate that T$^2$ outperforms state-of-the-art methods in producing high-quality tabular data, highlighting its potential to support downstream models when direct data collection is practically infeasible.
- Abstract(参考訳): 表形式のデータは、多くの現実世界の機械学習(ML)アプリケーションに欠かせないが、高品質な表形式のデータを取得することは、通常、労働集約的で費用がかかる。
観測の不足によって制限されたタブ状データセットは、クラス不均衡、選択バイアス、低忠実度などの重大な欠陥を示すことが多い。
これらの課題に対処するため、最近のLLM(Large Language Models)の進歩に基づいて、LLMの協力チームを通して高品質な表層データを合成するフレームワークであるTeam-then-Trim(T$^2$)を紹介し、3段階のプラグインデータ品質制御(QC)パイプラインを紹介する。
T$^2$では、表形式のデータ生成は製造プロセスとして概念化され、ドメイン知識によってガイドされる特殊なLCMは、異なるデータコンポーネントを逐次生成するタスクを担い、生成した製品(合成データ)は、QCの複数の次元にわたって体系的に評価される。
シミュレーションと実世界の両方のデータセットにおける実証的な結果から、T$^2$は、高品質な表グラフデータを生成する最先端の手法よりも優れており、直接データ収集が事実上不可能な場合、下流モデルをサポートする可能性を強調している。
関連論文リスト
- Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis [44.66179436245703]
Follow-Your-Instructionは、高品質な2D、3D、4Dデータを自動合成するフレームワークである。
3Dレイアウトを構築し、セマンティックリファインメントのためにビジョン・ランゲージ・モデル(VLM)を利用する。
本研究では,2D,3D,4D生成タスクに関する総合的な実験を通じて,生成データの品質を評価する。
論文 参考訳(メタデータ) (2025-08-07T17:12:54Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Fine-Tuning Language Models on Multiple Datasets for Citation Intention Classification [17.03832781104098]
引用意図分類(Citation intention Classification, CIC)は、意図によって引用を分類するツールである。
以前の研究では、事前訓練された言語モデル(PLM)がCICベンチマークで最先端のパフォーマンスを達成できることが示されている。
複数の補助的CICデータセットとともに、一次関心のデータセット上でPLMを微調整するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:45:02Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。