論文の概要: Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance
- arxiv url: http://arxiv.org/abs/2406.03628v2
- Date: Mon, 06 Jan 2025 15:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:35.624440
- Title: Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance
- Title(参考訳): 合成オーバーサンプリング: LLMによるデータ不均衡対策の理論と実践的アプローチ
- Authors: Ryumei Nakada, Yichen Xu, Lexin Li, Linjun Zhang,
- Abstract要約: 不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
- 参考スコア(独自算出の注目度): 16.047084318753377
- License:
- Abstract: Imbalanced classification and spurious correlation are common challenges in data science and machine learning. Both issues are linked to data imbalance, with certain groups of data samples significantly underrepresented, which in turn would compromise the accuracy, robustness and generalizability of the learned models. Recent advances have proposed leveraging the flexibility and generative capabilities of large language models (LLMs), typically built on transformer architectures, to generate synthetic samples and to augment the observed data. In the context of imbalanced data, LLMs are used to oversample underrepresented groups and have shown promising improvements. However, there is a clear lack of theoretical understanding of such synthetic data approaches. In this article, we develop novel theoretical foundations to systematically study the roles of synthetic samples in addressing imbalanced classification and spurious correlation. Specifically, we first explicitly quantify the benefits of synthetic oversampling. Next, we analyze the scaling dynamics in synthetic data augmentation, and derive the corresponding scaling law. Finally, we demonstrate the capacity of transformer models to generate high-quality synthetic samples. We further conduct extensive numerical experiments to validate the efficacy of the LLM-based synthetic oversampling and augmentation.
- Abstract(参考訳): 不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
どちらの問題もデータ不均衡と結びついており、データサンプルの特定のグループが著しく過小評価されており、それによって学習されたモデルの正確性、堅牢性、一般化性が損なわれる。
近年の進歩は、トランスフォーマーアーキテクチャをベースとした大規模言語モデル(LLM)の柔軟性と生成能力を活用して、合成サンプルを生成し、観測データを増大させることが提案されている。
不均衡データの文脈では、LLMは未表現のグループのオーバーサンプリングに使われ、有望な改善を示している。
しかし、このような合成データアプローチに関する理論的理解の欠如は明らかである。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
具体的には,まず,合成オーバーサンプリングの利点を明示的に定量化する。
次に、合成データ拡張におけるスケーリングのダイナミクスを分析し、対応するスケーリング法則を導出する。
最後に,高品質な合成サンプルを生成するためのトランスモデルのキャパシティを示す。
さらに, LLMを用いた人工オーバーサンプリングと拡張の有効性を検証するため, 広範な数値実験を行った。
関連論文リスト
- On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets [4.389150156866014]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。
これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。
複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文 参考訳(メタデータ) (2024-02-06T13:20:46Z) - Synthetic Information towards Maximum Posterior Ratio for deep learning
on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。
提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。
実験結果から,提案手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-01-05T01:08:26Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。