論文の概要: SEED: Domain-Specific Data Curation With Large Language Models
- arxiv url: http://arxiv.org/abs/2310.00749v2
- Date: Sat, 2 Dec 2023 03:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:13:00.110281
- Title: SEED: Domain-Specific Data Curation With Large Language Models
- Title(参考訳): SEED: 大規模言語モデルによるドメイン特化データキュレーション
- Authors: Zui Chen, Lei Cao, Sam Madden, Tim Kraska, Zeyuan Shang, Ju Fan, Nan
Tang, Zihui Gu, Chunwei Liu, Michael Cafarella
- Abstract要約: LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEDは、それらのジェネリックなソリューションを著しく上回るドメイン固有のソリューションを生成する。
SEDは最先端または同等の少数ショットのパフォーマンスを達成し、LLM呼び出しの数を著しく削減する。
- 参考スコア(独自算出の注目度): 23.292874517414774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data curation tasks that prepare data for analytics are critical for turning
data into actionable insights. However, due to the diverse requirements of
applications in different domains, generic off-the-shelf tools are typically
insufficient. As a result, data scientists often have to develop
domain-specific solutions tailored to both the dataset and the task, e.g.
writing domain-specific code or training machine learning models on a
sufficient number of annotated examples. This process is notoriously difficult
and time-consuming. We present SEED, an LLM-as-compiler approach that
automatically generates domain-specific data curation solutions via Large
Language Models (LLMs). Once the user describes a task, input data, and
expected output, the SEED compiler produces an executable pipeline composed of
LLM-generated code, small model, and data access modules. SEED uses these
generated modules to process most of the data records and dynamically decides
when the LLM should step in to directly process some individual records,
possibly using the data-access modules to retrieve relevant information from
the data sources to assist the LLM in solving the task. To validate this new,
revolutionary approach, we conducted experiments on 9 datasets spanning over 5
data curation tasks. The results show that SEED generates domain-specific
solutions that significantly outperform their generic counterparts, often
approaching the performance of the manually curated solutions that use
thousands of labeled training examples. Moreover, in comparison to solutions
that use the LLM on every data record, SEED achieves state-of-the-art or
comparable few-shot performance, while significantly reducing the number of LLM
calls.
- Abstract(参考訳): 分析のためにデータを準備するデータキュレーションタスクは、データを実行可能な洞察に変換するために重要です。
しかし、異なるドメインにおけるアプリケーションの多様な要求のため、一般的なオフザシェルフツールは一般的に不十分である。
その結果、データサイエンティストは、例えば、ドメイン固有のコードを書いたり、十分な数の注釈付き例で機械学習モデルをトレーニングしたりするなど、データセットとタスクの両方に合わせたドメイン固有のソリューションを開発する必要がある。
このプロセスは困難で時間がかかります。
本稿では,Large Language Models (LLMs) を通じて,ドメイン固有のデータキュレーションソリューションを自動生成する LLM-as-compiler アプローチのSEEDを提案する。
ユーザがタスク、入力データ、期待される出力を記述すると、SEEDコンパイラはLLM生成コード、小さなモデル、データアクセスモジュールで構成される実行可能なパイプラインを生成する。
SEEDはこれらの生成されたモジュールを使用してデータレコードのほとんどを処理し、LLMが個々のレコードを直接処理するタイミングを動的に決定する。
この新しい革命的アプローチを検証するために,5つのデータキュレーションタスクにまたがる9つのデータセットの実験を行った。
その結果、SEEDは一般的なソリューションよりもはるかに優れたドメイン固有のソリューションを生成し、数千のラベル付きトレーニング例を使用する手作業によるソリューションのパフォーマンスに近づいていることがわかった。
さらに、すべてのデータレコードでLLMを使用するソリューションと比較して、SEEDは最先端または同等な数ショットのパフォーマンスを実現し、LLM呼び出しの数を著しく削減する。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。