論文の概要: Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes
- arxiv url: http://arxiv.org/abs/2312.12112v1
- Date: Tue, 19 Dec 2023 12:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:38:45.696623
- Title: Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes
- Title(参考訳): 計算LDM:超低データ体制における表層拡張のためのLCMの相乗効果とデータキュレーション
- Authors: Nabeel Seedat, Nicolas Huynh, Boris van Breugel, Mihaela van der
Schaar
- Abstract要約: 低データ体制におけるデータ拡張のための大規模言語モデル(LLM)。
CLLMを導入し、LLMの以前の知識を低データ体制におけるデータ拡張に活用する。
LLMを含む全ジェネレータの下流性能を改善するためのキュレーション機構を示す。
- 参考スコア(独自算出の注目度): 62.94611066903098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) in low-data settings remains an underappreciated yet
crucial problem. This challenge is pronounced in low-to-middle income countries
where access to large datasets is often limited or even absent. Hence, data
augmentation methods to increase the sample size of datasets needed for ML are
key to unlocking the transformative potential of ML in data-deprived regions
and domains. Unfortunately, the limited training set constrains traditional
tabular synthetic data generators in their ability to generate a large and
diverse augmented dataset needed for ML tasks. To address this technical
challenge, we introduce CLLM, which leverages the prior knowledge of Large
Language Models (LLMs) for data augmentation in the low-data regime. While
diverse, not all the data generated by LLMs will help increase utility for a
downstream task, as for any generative model. Consequently, we introduce a
principled curation process, leveraging learning dynamics, coupled with
confidence and uncertainty metrics, to obtain a high-quality dataset.
Empirically, on multiple real-world datasets, we demonstrate the superior
performance of LLMs in the low-data regime compared to conventional generators.
We further show our curation mechanism improves the downstream performance for
all generators, including LLMs. Additionally, we provide insights and
understanding into the LLM generation and curation mechanism, shedding light on
the features that enable them to output high-quality augmented datasets. CLLM
paves the way for wider usage of ML in data scarce domains and regions, by
allying the strengths of LLMs with a robust data-centric approach.
- Abstract(参考訳): 低データ設定での機械学習(ML)は、未承認だが重要な問題である。
この課題は、大規模なデータセットへのアクセスが制限されるか、あるいは欠落することが多い低中間所得国で顕著である。
したがって、MLに必要なデータセットのサンプルサイズを増やすためのデータ拡張方法は、データ削除されたリージョンやドメインにおけるMLの変換ポテンシャルを解放する鍵となる。
残念ながら、限定されたトレーニングセットは、mlタスクに必要な大規模で多様な拡張データセットを生成する能力において、従来の表型合成データジェネレータを制約している。
この技術的課題に対処するために,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを導入する。
多様性はあるが、LLMが生成したすべてのデータが、生成モデルのように下流タスクの実用性を高める助けになるわけではない。
そこで本研究では,学習のダイナミクスを活用し,信頼度と不確実性指標を併用した原則キュレーションプロセスを導入し,高品質なデータセットを得る。
実証的には、複数の実世界のデータセットにおいて、従来のジェネレータと比較して低データ状態におけるLLMの優れた性能を示す。
さらに,当社のキュレーション機構により,llmsを含む全ジェネレータの下流性能が向上することを示す。
さらに、LLM生成とキュレーションメカニズムに関する洞察と理解を提供し、高品質なデータセットを出力できる機能に光を当てています。
CLLMは、LLMの強みを堅牢なデータ中心のアプローチと結び付けることで、データ不足とリージョンにおけるMLのより広範な使用方法を舗装する。
関連論文リスト
- Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning [16.307467144690683]
大規模な言語モデルは、少量の高品質なデータだけで望ましいパフォーマンスを達成することができる。
大規模なデータセットから高品質なデータを識別して、小さいが効果的なデータセットをキュレートすることが、重要な課題である。
本稿では,Shapley値に基づく自動データセット精錬フレームワークSHEDを紹介する。
論文 参考訳(メタデータ) (2024-04-23T04:56:48Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。