論文の概要: The Synthetic Imputation Approach: Generating Optimal Synthetic Texts For Underrepresented Categories In Supervised Classification Tasks
- arxiv url: http://arxiv.org/abs/2504.15160v1
- Date: Mon, 21 Apr 2025 15:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 14:51:14.060366
- Title: The Synthetic Imputation Approach: Generating Optimal Synthetic Texts For Underrepresented Categories In Supervised Classification Tasks
- Title(参考訳): 合成インプットアプローチ : 教師付き分類課題における不足カテゴリのための最適合成テキストの生成
- Authors: Joan C. Timoneda,
- Abstract要約: 高品質なトレーニングセットを構築する際に、タスク内のすべてのカテゴリの十分な例を見つけることは、しばしば困難である。
合成計算手法として, 合成計算法を提案する。
提案手法は, 注意深いプロンプトと, サンプルからの置き換えでランダムに描画された5つのオリジナル例に基づいて, 合成テキストを生成する。
75本以上の原本の場合、合成計算の性能は原本の全サンプルと同等であり、オーバーフィットは低く、予測可能で、50本分の原本が修正可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoder-decoder Large Language Models (LLMs), such as BERT and RoBERTa, require that all categories in an annotation task be sufficiently represented in the training data for optimal performance. However, it is often difficult to find sufficient examples for all categories in a task when building a high-quality training set. In this article, I describe this problem and propose a solution, the synthetic imputation approach. Leveraging a generative LLM (GPT-4o), this approach generates synthetic texts based on careful prompting and five original examples drawn randomly with replacement from the sample. This approach ensures that new synthetic texts are sufficiently different from the original texts to reduce overfitting, but retain the underlying substantive meaning of the examples to maximize out-of-sample performance. With 75 original examples or more, synthetic imputation's performance is on par with a full sample of original texts, and overfitting remains low, predictable and correctable with 50 original samples. The synthetic imputation approach provides a novel role for generative LLMs in research and allows applied researchers to balance their datasets for best performance.
- Abstract(参考訳): BERTやRoBERTaのようなエンコーダ・デコーダの大規模言語モデル(LLM)は、アノテーションタスクのすべてのカテゴリを、最適なパフォーマンスのためにトレーニングデータに十分に表現する必要がある。
しかし、高品質なトレーニングセットを構築する際には、タスク内のすべてのカテゴリの十分な例を見つけることはしばしば困難である。
本稿では,この問題について述べるとともに,その解決法である合成計算手法を提案する。
生成LDM (GPT-4o) を利用して, 慎重にプロンプトし, サンプルからランダムに抽出した5つのオリジナル例を合成テキストとして生成する。
このアプローチにより、新しい合成テキストは、オーバーフィッティングを減らすために元のテキストと十分に異なるが、サンプルの実質的な意味を保ち、アウト・オブ・サンプルのパフォーマンスを最大化する。
75本以上の原本の場合、合成計算の性能は原本の全サンプルと同等であり、オーバーフィットは低く、予測可能で、50本分の原本が修正可能である。
合成計算アプローチは、研究における生成LDMに新しい役割を与え、応用研究者がデータセットを最高のパフォーマンスにバランスさせることを可能にする。
関連論文リスト
- Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Synthetic Text Generation for Training Large Language Models via Gradient Matching [27.74603049449281]
合成可読テキストを生成するための理論的に厳密な最初のアプローチを提案する。
生成した合成テキストは、実際のデータを微調整して得られた解の近傍にモデルを収束させることを保証できる。
論文 参考訳(メタデータ) (2025-02-24T19:49:15Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Finding needles in a haystack: Sampling Structurally-diverse Training
Sets from Synthetic Data for Compositional Generalization [33.30539396439008]
意味解析における合成一般化を改善するための合成発話プログラムペアの自動生成について検討する。
構造的に異なる合成例のサブセットを選択し、それらを合成一般化を改善するために利用する。
我々は,スキーマ2QAデータセットの新たな分割に対するアプローチを評価し,それが構成一般化の劇的な改善と従来のi.i.dセットアップの適度な改善につながっていることを示す。
論文 参考訳(メタデータ) (2021-09-06T16:20:47Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。