Fugu-MT 論文翻訳(概要): Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models

論文の概要: Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models

arxiv url: http://arxiv.org/abs/2404.12404v1
Date: Mon, 15 Apr 2024 17:49:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 17:13:50.843668
Title: Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models
Title（参考訳）: 大規模言語モデルを用いた合成語彙データ生成のためのグループワイド・プロンプト
Authors: Jinhee Kim, Taesung Kim, Jaegul Choo,
Abstract要約: 本研究では,合成データを生成するために,Large Language Models (LLMs) を用いた簡易かつ効果的な手法を提案する。本稿では,LLMのテキスト内学習機能を活用した,CSV形式のグループワイドプロンプト手法を提案する。提案したランダムな単語置換戦略は,単調なカテゴリー値の扱いを大幅に改善する。
参考スコア（独自算出の注目度）: 39.347666307218006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating realistic synthetic tabular data presents a critical challenge in machine learning. This study introduces a simple yet effective method employing Large Language Models (LLMs) tailored to generate synthetic data, specifically addressing data imbalance problems. We propose a novel group-wise prompting method in CSV-style formatting that leverages the in-context learning capabilities of LLMs to produce data that closely adheres to the specified requirements and characteristics of the target dataset. Moreover, our proposed random word replacement strategy significantly improves the handling of monotonous categorical values, enhancing the accuracy and representativeness of the synthetic data. The effectiveness of our method is extensively validated across eight real-world public datasets, achieving state-of-the-art performance in downstream classification and regression tasks while maintaining inter-feature correlations and improving token efficiency over existing approaches. This advancement significantly contributes to addressing the key challenges of machine learning applications, particularly in the context of tabular data generation and handling class imbalance. The source code for our work is available at: https://github.com/seharanul17/synthetic-tabular-LLM
Abstract（参考訳）: リアルな合成表データを生成することは、機械学習において重要な課題である。本研究では,Large Language Models (LLMs) を用いて合成データを生成する手法を提案する。本稿では,LLMの文脈内学習機能を活用して,目標データセットの要求や特徴に忠実に準拠するデータを生成する,CSVスタイルの新たなグループワイドプロセッシング手法を提案する。さらに,提案したランダムな単語置換戦略により,単調なカテゴリ値の扱いが大幅に改善され,合成データの精度と表現性が向上する。提案手法の有効性は,8つの実世界のパブリックデータセットに対して広く検証され,下流分類および回帰作業における最先端のパフォーマンスが達成され,機能間相関を維持しつつ,既存のアプローチよりもトークン効率が向上した。この進歩は、特に表型データ生成とクラス不均衡処理の文脈において、機械学習アプリケーションの重要な課題への対処に大きく貢献する。私たちの作業のソースコードは、https://github.com/seharanul17/synthetic-tabular-LLMで公開されています。

関連論文リスト

Does Prompt Design Impact Quality of Data Imputation by LLMs? [0.0]
本稿では,大規模言語モデルの文脈内学習機能を活用したトークン認識型データ計算手法を提案する。 2つのクラス不均衡なバイナリ分類データセットを用いてこのアプローチを検証し、計算の有効性を評価する。
論文参考訳（メタデータ） (2025-06-04T17:15:19Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文参考訳（メタデータ） (2025-03-06T16:04:01Z)
Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。 LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文参考訳（メタデータ） (2025-02-09T16:43:32Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文参考訳（メタデータ） (2024-10-28T20:53:49Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T01:28:48Z)
Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文参考訳（メタデータ） (2023-10-11T19:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。