論文の概要: Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes
- arxiv url: http://arxiv.org/abs/2312.12112v2
- Date: Wed, 7 Feb 2024 19:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:48:34.911847
- Title: Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes
- Title(参考訳): 計算LDM:超低データ体制における表層拡張のためのLCMの相乗効果とデータキュレーション
- Authors: Nabeel Seedat, Nicolas Huynh, Boris van Breugel, Mihaela van der
Schaar
- Abstract要約: 本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
- 参考スコア(独自算出の注目度): 62.94611066903098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) in low-data settings remains an underappreciated yet
crucial problem. Hence, data augmentation methods to increase the sample size
of datasets needed for ML are key to unlocking the transformative potential of
ML in data-deprived regions and domains. Unfortunately, the limited training
set constrains traditional tabular synthetic data generators in their ability
to generate a large and diverse augmented dataset needed for ML tasks. To
address this challenge, we introduce CLLM, which leverages the prior knowledge
of Large Language Models (LLMs) for data augmentation in the low-data regime.
However, not all the data generated by LLMs will improve downstream utility, as
for any generative model. Consequently, we introduce a principled curation
mechanism, leveraging learning dynamics, coupled with confidence and
uncertainty metrics, to obtain a high-quality dataset. Empirically, on multiple
real-world datasets, we demonstrate the superior performance of CLLM in the
low-data regime compared to conventional generators. Additionally, we provide
insights into the LLM generation and curation mechanism, shedding light on the
features that enable them to output high-quality augmented datasets.
- Abstract(参考訳): 低データ設定での機械学習(ML)は、未承認だが重要な問題である。
したがって、MLに必要なデータセットのサンプルサイズを増やすためのデータ拡張方法は、データ削除されたリージョンやドメインにおけるMLの変換ポテンシャルを解放する鍵となる。
残念ながら、限定されたトレーニングセットは、mlタスクに必要な大規模で多様な拡張データセットを生成する能力において、従来の表型合成データジェネレータを制約している。
この課題に対処するために,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを導入する。
しかし、LLMが生成したデータはすべて、生成モデルのように下流のユーティリティを改善するわけではない。
その結果,信頼性と不確かさの指標と合わせて,学習力学を活かした定性的なキュレーション機構を導入し,高品質なデータセットを得ることができた。
実証的に,複数の実世界のデータセットにおいて,従来のジェネレータと比較して低データ環境においてcllmの優れた性能を示す。
さらに、LLM生成とキュレーションメカニズムに関する洞察を提供し、高品質な拡張データセットを出力できる機能に光を当てています。
関連論文リスト
- Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文 参考訳(メタデータ) (2023-12-12T03:30:21Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。