論文の概要: TAGAL: Tabular Data Generation using Agentic LLM Methods
- arxiv url: http://arxiv.org/abs/2509.04152v1
- Date: Thu, 04 Sep 2025 12:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.155411
- Title: TAGAL: Tabular Data Generation using Agentic LLM Methods
- Title(参考訳): TAGAL:エージェントLLM法による語彙データ生成
- Authors: Benoît Ronval, Pierre Dupont, Siegfried Nijssen,
- Abstract要約: データ生成は、機械学習タスクのパフォーマンスを改善するための一般的なアプローチである。
本稿では,エージェントワークフローを用いて合成表データを生成可能なメソッドの集合であるTAGALを提案する。
TAGALは、LLM(Large Language Models)のトレーニングを必要とする最先端のアプローチと同等に動作し、一般に他のトレーニング不要のアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.3037647287689436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of data is a common approach to improve the performance of machine learning tasks, among which is the training of models for classification. In this paper, we present TAGAL, a collection of methods able to generate synthetic tabular data using an agentic workflow. The methods leverage Large Language Models (LLMs) for an automatic and iterative process that uses feedback to improve the generated data without any further LLM training. The use of LLMs also allows for the addition of external knowledge in the generation process. We evaluate TAGAL across diverse datasets and different aspects of quality for the generated data. We look at the utility of downstream ML models, both by training classifiers on synthetic data only and by combining real and synthetic data. Moreover, we compare the similarities between the real and the generated data. We show that TAGAL is able to perform on par with state-of-the-art approaches that require LLM training and generally outperforms other training-free approaches. These findings highlight the potential of agentic workflow and open new directions for LLM-based data generation methods.
- Abstract(参考訳): データの生成は、機械学習タスクのパフォーマンスを改善するための一般的なアプローチであり、そのうちの1つは、分類のためのモデルのトレーニングである。
本稿では,エージェントワークフローを用いて合成表データを生成する方法の集合であるTAGALを提案する。
これらの手法は、LLMトレーニングを必要とせずに、フィードバックを使って生成されたデータを改善する自動的かつ反復的なプロセスのために、Large Language Models (LLMs) を利用する。
LLMを使用することで、生成プロセスに外部知識を追加することもできる。
我々は、多様なデータセットにまたがるTAGALを評価し、生成されたデータの品質の異なる側面を評価する。
本稿では、合成データのみに対する分類器の訓練と、実データと合成データの組み合わせによる下流MLモデルの実用性について考察する。
さらに,実データと生成データとの類似性を比較する。
我々は、TAGALがLLMトレーニングを必要とする最先端のアプローチと同等に動作できることを示し、通常、他のトレーニング不要のアプローチよりも優れていることを示す。
これらの知見は, LLMに基づくデータ生成手法におけるエージェントワークフローの可能性と新たな方向性を明らかにするものである。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。