論文の概要: Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges
- arxiv url: http://arxiv.org/abs/2403.02990v4
- Date: Tue, 2 Jul 2024 07:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 12:13:48.919668
- Title: Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges
- Title(参考訳): 大規模言語モデルを用いたデータ拡張:データパースペクティブ、学習パラダイム、課題
- Authors: Bosheng Ding, Chengwei Qin, Ruochen Zhao, Tianze Luo, Xinze Li, Guizhen Chen, Wenhan Xia, Junjie Hu, Anh Tuan Luu, Shafiq Joty,
- Abstract要約: データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
- 参考スコア(独自算出の注目度): 47.45993726498343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving field of large language models (LLMs), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of LLMs on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From both data and learning perspectives, we examine various strategies that utilize LLMs for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for diverse forms of further training. Additionally, this paper highlights the primary open challenges faced in this domain, ranging from controllable data augmentation to multi-modal data augmentation. This survey highlights a paradigm shift introduced by LLMs in DA, and aims to serve as a comprehensive guide for researchers and practitioners.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速に発展する分野では,データ収集を必要とせずにトレーニング例を多様化することにより,データ拡張(DA)がモデル性能を向上させる重要な手法として出現している。
本調査では,LLMがDAに与える影響,特に自然言語処理(NLP)などにおいて,それらがもたらす固有の課題と機会について考察する。
データと学習の両面から、LLMをデータ強化に活用する様々な戦略を検討する。
さらに、制御可能なデータ拡張からマルチモーダルデータ拡張まで、この領域で直面している主要なオープン課題を強調した。
本調査は,LLMがDAで導入したパラダイムシフトに注目し,研究者や実践者のための総合的なガイドとして機能することを目的としている。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [36.277423093218275]
大規模言語モデル(LLM)の全体的な能力向上におけるデータ多様性の役割について検討する。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - Text Data Augmentation for Large Language Models: A Comprehensive Survey of Methods, Challenges, and Opportunities [3.1394848827666544]
大規模コーパスで訓練された大規模言語モデル(LLM)は、顕著なテキスト生成機能を持つ。
最近の有望な検索に基づく手法は、データ拡張におけるLLMの表現性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-01-31T01:50:49Z) - The Evolution of LLM Adoption in Industry Data Curation Practices [20.143297690624298]
本稿では,大規模技術企業における実践者間の言語モデル(LLM)の進化について考察する。
一連の調査、インタビュー、ユーザスタディを通じて、LLMの進化において組織がどのように重要な瞬間をナビゲートしているか、タイムリーなスナップショットを提供しています。
論文 参考訳(メタデータ) (2024-12-20T17:34:16Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - A Survey of Multimodal Large Language Model from A Data-centric Perspective [46.57232264950785]
マルチモーダル大言語モデル(MLLM)は、複数のモーダルからのデータの統合と処理によって、標準的な大言語モデルの能力を高める。
データはこれらのモデルの開発と改良において重要な役割を担います。
論文 参考訳(メタデータ) (2024-05-26T17:31:21Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。