論文の概要: Text Data Augmentation for Large Language Models: A Comprehensive Survey of Methods, Challenges, and Opportunities
- arxiv url: http://arxiv.org/abs/2501.18845v1
- Date: Fri, 31 Jan 2025 01:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:18.886689
- Title: Text Data Augmentation for Large Language Models: A Comprehensive Survey of Methods, Challenges, and Opportunities
- Title(参考訳): 大規模言語モデルのためのテキストデータ拡張:方法・課題・機会の包括的調査
- Authors: Yaping Chai, Haoran Xie, Joe S. Qin,
- Abstract要約: 大規模コーパスで訓練された大規模言語モデル(LLM)は、顕著なテキスト生成機能を持つ。
最近の有望な検索に基づく手法は、データ拡張におけるLLMの表現性能をさらに向上させる。
- 参考スコア(独自算出の注目度): 3.1394848827666544
- License:
- Abstract: The increasing size and complexity of pre-trained language models have demonstrated superior performance in many applications, but they usually require large training datasets to be adequately trained. Insufficient training sets could unexpectedly make the model overfit and fail to cope with complex tasks. Large language models (LLMs) trained on extensive corpora have prominent text generation capabilities, which improve the quality and quantity of data and play a crucial role in data augmentation. Specifically, distinctive prompt templates are given in personalised tasks to guide LLMs in generating the required content. Recent promising retrieval-based techniques further improve the expressive performance of LLMs in data augmentation by introducing external knowledge to enable them to produce more grounded-truth data. This survey provides an in-depth analysis of data augmentation in LLMs, classifying the techniques into Simple Augmentation, Prompt-based Augmentation, Retrieval-based Augmentation and Hybrid Augmentation. We summarise the post-processing approaches in data augmentation, which contributes significantly to refining the augmented data and enabling the model to filter out unfaithful content. Then, we provide the common tasks and evaluation metrics. Finally, we introduce existing challenges and future opportunities that could bring further improvement to data augmentation.
- Abstract(参考訳): 事前訓練された言語モデルのサイズと複雑さの増大は、多くのアプリケーションで優れたパフォーマンスを示してきたが、通常、適切なトレーニングを行うには大規模なトレーニングデータセットが必要である。
不十分なトレーニングセットは、予期せずモデルを過度に適合させ、複雑なタスクに対処できない可能性がある。
大規模コーパスで訓練された大規模言語モデル(LLM)は、データの品質と量を向上し、データ拡張において重要な役割を果たす、顕著なテキスト生成能力を持つ。
具体的には、特有のプロンプトテンプレートがパーソナライズされたタスクで与えられ、必要なコンテンツを生成するのにLLMをガイドする。
最近の有望な検索ベース技術は、外部知識を導入することにより、データ拡張におけるLCMの表現性能をさらに向上し、より基礎的なデータを生成することができる。
この調査は、LLMにおけるデータ拡張の詳細な分析を提供し、そのテクニックをSimple Augmentation、PromptベースのAugmentation、RetrievalベースのAugmentation、Hybrid Augmentationに分類する。
我々は、データ拡張における後処理アプローチを要約する。これは、拡張データの精細化に大きく貢献し、不信なコンテンツのフィルタリングを可能にする。
そして、共通のタスクと評価指標を提供します。
最後に、データ拡張にさらなる改善をもたらす可能性のある既存の課題と今後の機会を紹介します。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Empowering Large Language Models for Textual Data Augmentation [23.483960932358396]
大きな言語モデル(LLM)は、テキストデータ拡張のための強力なツールとして機能する可能性がある。
本研究は,大規模拡張命令を自動生成し,最適なタスクインフォームド命令を選択する,新たなソリューションを提案する。
実験的に提案手法は,LLM や LLM をベースとしたデータ拡張手法と比較して,品質が向上した拡張データを一貫して生成する。
論文 参考訳(メタデータ) (2024-04-26T18:04:25Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - A Survey on Data Augmentation in Large Model Era [16.05117556207015]
大きな言語と拡散モデルを含む大きなモデルは、人間レベルの知能を近似する上で非常に有望である。
これらのモデルへの継続的な更新により、既存の高品質なデータの貯水池はすぐに枯渇する可能性がある。
本稿では,大規模モデル駆動型データ拡張手法について概観する。
論文 参考訳(メタデータ) (2024-01-27T14:19:33Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。