Fugu-MT 論文翻訳(概要): Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes

論文の概要: Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes

arxiv url: http://arxiv.org/abs/2312.12112v3
Date: Sun, 30 Jun 2024 12:48:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 15:28:10.156333
Title: Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes
Title（参考訳）: キュレートLDM:LLMのシナジーと低データ体制における表層拡大のためのデータキュレーション
Authors: Nabeel Seedat, Nicolas Huynh, Boris van Breugel, Mihaela van der Schaar,
Abstract要約: 本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
参考スコア（独自算出の注目度）: 57.62036621319563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine Learning (ML) in low-data settings remains an underappreciated yet crucial problem. Hence, data augmentation methods to increase the sample size of datasets needed for ML are key to unlocking the transformative potential of ML in data-deprived regions and domains. Unfortunately, the limited training set constrains traditional tabular synthetic data generators in their ability to generate a large and diverse augmented dataset needed for ML tasks. To address this challenge, we introduce CLLM, which leverages the prior knowledge of Large Language Models (LLMs) for data augmentation in the low-data regime. However, not all the data generated by LLMs will improve downstream utility, as for any generative model. Consequently, we introduce a principled curation mechanism, leveraging learning dynamics, coupled with confidence and uncertainty metrics, to obtain a high-quality dataset. Empirically, on multiple real-world datasets, we demonstrate the superior performance of CLLM in the low-data regime compared to conventional generators. Additionally, we provide insights into the LLM generation and curation mechanism, shedding light on the features that enable them to output high-quality augmented datasets.
Abstract（参考訳）: 低データ設定での機械学習(ML)は、未承認だが重要な問題である。したがって、MLに必要なデータセットのサンプルサイズを増やすためのデータ拡張方法は、データ削除されたリージョンやドメインにおけるMLの変換ポテンシャルを解放する鍵となる。残念なことに、この制限されたトレーニングセットは、MLタスクに必要な大規模で多様な拡張データセットを生成する能力において、従来の表形式の合成データジェネレータを制約している。この課題に対処するために,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを導入する。しかし、LLMが生成したデータはすべて、生成モデルのように下流のユーティリティを改善するわけではない。その結果,信頼性と不確かさの指標と合わせて,学習力学を活かした定性的なキュレーション機構を導入し,高品質なデータセットを得ることができた。実証的には、複数の実世界のデータセットにおいて、従来のジェネレータと比較して、低データ状態におけるCLLMの優れた性能を示す。さらに、LLM生成とキュレーションメカニズムに関する洞察を提供し、高品質な拡張データセットを出力できる機能に光を当てています。

関連論文リスト

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.897899343082806]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文参考訳（メタデータ） (2025-10-29T17:01:55Z)
On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing [29.144451092549048]
データ計算の欠如は、データセットの完全性を達成するために、生データセットの欠落した値をインプットすることを目的としている。 1)数値データと分類データしかサポートしていないか,2)不満足な性能を示す。 We propose UnIMP, a Unified IMPutation framework that leverageing LLM and high-order message passing to enhance the imputation of mixed-type data。
論文参考訳（メタデータ） (2025-01-04T05:05:44Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文参考訳（メタデータ） (2024-08-16T06:37:59Z)
SHED: Shapley-Based Automated Dataset Refinement for Instruction Fine-Tuning [16.307467144690683]
大規模な言語モデルは、少量の高品質なデータだけで望ましいパフォーマンスを達成することができる。大規模なデータセットから高品質なデータを識別して、小さいが効果的なデータセットをキュレートすることが、重要な課題である。本稿では,Shapley値に基づく自動データセット精錬フレームワークSHEDを紹介する。
論文参考訳（メタデータ） (2024-04-23T04:56:48Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-30T23:28:43Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。