論文の概要: Exploring Prompting Methods for Mitigating Class Imbalance through Synthetic Data Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2404.12404v2
- Date: Mon, 27 May 2024 03:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:57:17.649359
- Title: Exploring Prompting Methods for Mitigating Class Imbalance through Synthetic Data Generation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた合成データ生成によるクラス不均衡の緩和手法の探索
- Authors: Jinhee Kim, Taesung Kim, Jaegul Choo,
- Abstract要約: 大規模言語モデル (LLMs) は、様々な領域にまたがるコンテキスト内学習能力を示す。
そこで本研究では,クラス不均衡を緩和する現実的なデータ生成におけるLLMの有効性について検討した。
この結果から, CSV形式, バランスクラス, ユニークな変数マッピングを用いることで, 現実的で信頼性の高いデータを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 39.347666307218006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive in-context learning capabilities across various domains. Inspired by this, our study explores the effectiveness of LLMs in generating realistic tabular data to mitigate class imbalance. We investigate and identify key prompt design elements such as data format, class presentation, and variable mapping to optimize the generation performance. Our findings indicate that using CSV format, balancing classes, and employing unique variable mapping produces realistic and reliable data, significantly enhancing machine learning performance for minor classes in imbalanced datasets. Additionally, these approaches improve the stability and efficiency of LLM data generation. We validate our approach using six real-world datasets and a toy dataset, achieving state-of-the-art performance in classification tasks. The code is available at: https://github.com/seharanul17/synthetic-tabular-LLM
- Abstract(参考訳): 大規模言語モデル (LLMs) は、様々な領域にまたがるコンテキスト内学習能力を示す。
そこで本研究では,クラス不均衡を緩和する現実的な表型データ生成におけるLCMの有効性について検討した。
生成性能を最適化するために,データ形式,クラス提示,変数マッピングなどの重要なプロンプト設計要素を探索し,同定する。
この結果から,CSV形式,バランスの取れたクラス,一意な変数マッピングを用いることで,現実的で信頼性の高いデータを生成し,不均衡なデータセットにおけるマイナークラスの機械学習性能を大幅に向上させることが示唆された。
さらに, これらの手法により, LLMデータ生成の安定性と効率性が向上する。
実世界の6つのデータセットとおもちゃのデータセットを用いて、我々のアプローチを検証し、分類タスクにおける最先端のパフォーマンスを達成する。
コードは以下の通り。 https://github.com/seharanul17/synthetic-tabular-LLM
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。