論文の概要: SEED: Simple, Efficient, and Effective Data Management via Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.00749v1
- Date: Sun, 1 Oct 2023 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:07:30.325747
- Title: SEED: Simple, Efficient, and Effective Data Management via Large
Language Models
- Title(参考訳): SEED: 大規模言語モデルによるシンプルで効率的で効果的なデータ管理
- Authors: Zui CHen, Lei Cao, Sam Madden, Ju Fan, Nan Tang, Zihui Gu, Zeyuan
Shang, Chunwei Liu, Michael Cafarella, Tim Kraska
- Abstract要約: SEEDはコード生成、モデル生成、拡張クエリの3つの主要コンポーネントから構成される。
SEEDは、LLMを可能な限りローカライズすることで、コスト課題に対処する。
ユーザは各コンポーネントを設定し、自然言語で実行パイプラインを構成することができる。
- 参考スコア(独自算出の注目度): 23.292874517414774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce SEED, an LLM-centric system that allows users to easily create
efficient, and effective data management applications. SEED comprises three
main components: code generation, model generation, and augmented LLM query to
address the challenges that LLM services are computationally and economically
expensive and do not always work well on all cases for a given data management
task. SEED addresses the expense challenge by localizing LLM computation as
much as possible. This includes replacing most of LLM calls with local code,
local models, and augmenting LLM queries with batching and data access tools,
etc. To ensure effectiveness, SEED features a bunch of optimization techniques
to enhance the localized solution and the LLM queries, including automatic code
validation, code ensemble, model representatives selection, selective tool
usages, etc. Moreover, with SEED users are able to easily construct a data
management solution customized to their applications. It allows the users to
configure each component and compose an execution pipeline in natural language.
SEED then automatically compiles it into an executable program. We showcase the
efficiency and effectiveness of SEED using diverse data management tasks such
as data imputation, NL2SQL translation, etc., achieving state-of-the-art
few-shot performance while significantly reducing the number of required LLM
calls.
- Abstract(参考訳): ユーザが効率的に効率的なデータ管理アプリケーションを簡単に作成できるLLM中心のシステムSEEDを紹介する。
SEEDは、コード生成、モデル生成、拡張LLMクエリの3つの主要コンポーネントから構成されており、LLMサービスが計算的かつ経済的に高価であり、与えられたデータ管理タスクのすべてのケースで常にうまく機能しないという課題に対処する。
SEEDはLLM計算を極力ローカライズすることでコスト問題に対処する。
これには、ほとんどのLLMコールをローカルコードに置き換えること、ローカルモデル、バッチ処理やデータアクセスツールでLLMクエリを拡張することが含まれる。
有効性を確保するため、SEEDは、ローカライズされたソリューションとLLMクエリを強化するために、自動コードバリデーション、コードアンサンブル、モデル代表者選択、選択ツールの使用など、多くの最適化技術を備えている。
さらに、SEEDユーザーはアプリケーション用にカスタマイズされたデータ管理ソリューションを簡単に構築できる。
ユーザは各コンポーネントを設定し、自然言語で実行パイプラインを構成することができる。
SEEDは自動的に実行可能プログラムにコンパイルする。
本稿では,データ計算やNL2SQL翻訳などの多種多様なデータ管理タスクを用いたSEEDの効率と有効性を示す。
関連論文リスト
- MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2024-03-19T14:44:45Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Entity Matching using Large Language Models [4.94950858749529]
最先端のエンティティマッチング手法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存している。
エンティティマッチングにおけるこれらのモデルの2つの大きな欠点は、(i)モデルがタスク固有のトレーニングデータを必要とすることと、(ii)微調整されたモデルが、アウト・オブ・ディストリビューション・エンティティに関して堅牢でないことである。
PLMベースのマーカに代えて,よりタスク依存の訓練データとして,生成的大規模言語モデル(LLM)をエンティティマッチングに使用することを検討する。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。