論文の概要: SEED: Domain-Specific Data Curation With Large Language Models
- arxiv url: http://arxiv.org/abs/2310.00749v2
- Date: Sat, 2 Dec 2023 03:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:13:00.110281
- Title: SEED: Domain-Specific Data Curation With Large Language Models
- Title(参考訳): SEED: 大規模言語モデルによるドメイン特化データキュレーション
- Authors: Zui Chen, Lei Cao, Sam Madden, Tim Kraska, Zeyuan Shang, Ju Fan, Nan
Tang, Zihui Gu, Chunwei Liu, Michael Cafarella
- Abstract要約: LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEDは、それらのジェネリックなソリューションを著しく上回るドメイン固有のソリューションを生成する。
SEDは最先端または同等の少数ショットのパフォーマンスを達成し、LLM呼び出しの数を著しく削減する。
- 参考スコア(独自算出の注目度): 23.292874517414774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data curation tasks that prepare data for analytics are critical for turning
data into actionable insights. However, due to the diverse requirements of
applications in different domains, generic off-the-shelf tools are typically
insufficient. As a result, data scientists often have to develop
domain-specific solutions tailored to both the dataset and the task, e.g.
writing domain-specific code or training machine learning models on a
sufficient number of annotated examples. This process is notoriously difficult
and time-consuming. We present SEED, an LLM-as-compiler approach that
automatically generates domain-specific data curation solutions via Large
Language Models (LLMs). Once the user describes a task, input data, and
expected output, the SEED compiler produces an executable pipeline composed of
LLM-generated code, small model, and data access modules. SEED uses these
generated modules to process most of the data records and dynamically decides
when the LLM should step in to directly process some individual records,
possibly using the data-access modules to retrieve relevant information from
the data sources to assist the LLM in solving the task. To validate this new,
revolutionary approach, we conducted experiments on 9 datasets spanning over 5
data curation tasks. The results show that SEED generates domain-specific
solutions that significantly outperform their generic counterparts, often
approaching the performance of the manually curated solutions that use
thousands of labeled training examples. Moreover, in comparison to solutions
that use the LLM on every data record, SEED achieves state-of-the-art or
comparable few-shot performance, while significantly reducing the number of LLM
calls.
- Abstract(参考訳): 分析のためにデータを準備するデータキュレーションタスクは、データを実行可能な洞察に変換するために重要です。
しかし、異なるドメインにおけるアプリケーションの多様な要求のため、一般的なオフザシェルフツールは一般的に不十分である。
その結果、データサイエンティストは、例えば、ドメイン固有のコードを書いたり、十分な数の注釈付き例で機械学習モデルをトレーニングしたりするなど、データセットとタスクの両方に合わせたドメイン固有のソリューションを開発する必要がある。
このプロセスは困難で時間がかかります。
本稿では,Large Language Models (LLMs) を通じて,ドメイン固有のデータキュレーションソリューションを自動生成する LLM-as-compiler アプローチのSEEDを提案する。
ユーザがタスク、入力データ、期待される出力を記述すると、SEEDコンパイラはLLM生成コード、小さなモデル、データアクセスモジュールで構成される実行可能なパイプラインを生成する。
SEEDはこれらの生成されたモジュールを使用してデータレコードのほとんどを処理し、LLMが個々のレコードを直接処理するタイミングを動的に決定する。
この新しい革命的アプローチを検証するために,5つのデータキュレーションタスクにまたがる9つのデータセットの実験を行った。
その結果、SEEDは一般的なソリューションよりもはるかに優れたドメイン固有のソリューションを生成し、数千のラベル付きトレーニング例を使用する手作業によるソリューションのパフォーマンスに近づいていることがわかった。
さらに、すべてのデータレコードでLLMを使用するソリューションと比較して、SEEDは最先端または同等な数ショットのパフォーマンスを実現し、LLM呼び出しの数を著しく削減する。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Learning Representations on Logs for AIOps [6.47086647390439]
大規模言語モデル(LLM)は、膨大な量のラベルのないデータに基づいて自己監督を用いて訓練される。
本稿では,パブリックおよびプロプライエタリなログデータに基づいてトレーニングされたログデータのためのLLMを提案する。
提案するLLMは,公開およびプロプライエタリなログデータに基づいてトレーニングされ,複数のダウンストリームタスクにおいて優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-08-18T20:34:46Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。