論文の概要: SEED: Simple, Efficient, and Effective Data Management via Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.00749v1
- Date: Sun, 1 Oct 2023 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:07:30.325747
- Title: SEED: Simple, Efficient, and Effective Data Management via Large
Language Models
- Title(参考訳): SEED: 大規模言語モデルによるシンプルで効率的で効果的なデータ管理
- Authors: Zui CHen, Lei Cao, Sam Madden, Ju Fan, Nan Tang, Zihui Gu, Zeyuan
Shang, Chunwei Liu, Michael Cafarella, Tim Kraska
- Abstract要約: SEEDはコード生成、モデル生成、拡張クエリの3つの主要コンポーネントから構成される。
SEEDは、LLMを可能な限りローカライズすることで、コスト課題に対処する。
ユーザは各コンポーネントを設定し、自然言語で実行パイプラインを構成することができる。
- 参考スコア(独自算出の注目度): 23.292874517414774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce SEED, an LLM-centric system that allows users to easily create
efficient, and effective data management applications. SEED comprises three
main components: code generation, model generation, and augmented LLM query to
address the challenges that LLM services are computationally and economically
expensive and do not always work well on all cases for a given data management
task. SEED addresses the expense challenge by localizing LLM computation as
much as possible. This includes replacing most of LLM calls with local code,
local models, and augmenting LLM queries with batching and data access tools,
etc. To ensure effectiveness, SEED features a bunch of optimization techniques
to enhance the localized solution and the LLM queries, including automatic code
validation, code ensemble, model representatives selection, selective tool
usages, etc. Moreover, with SEED users are able to easily construct a data
management solution customized to their applications. It allows the users to
configure each component and compose an execution pipeline in natural language.
SEED then automatically compiles it into an executable program. We showcase the
efficiency and effectiveness of SEED using diverse data management tasks such
as data imputation, NL2SQL translation, etc., achieving state-of-the-art
few-shot performance while significantly reducing the number of required LLM
calls.
- Abstract(参考訳): ユーザが効率的に効率的なデータ管理アプリケーションを簡単に作成できるLLM中心のシステムSEEDを紹介する。
SEEDは、コード生成、モデル生成、拡張LLMクエリの3つの主要コンポーネントから構成されており、LLMサービスが計算的かつ経済的に高価であり、与えられたデータ管理タスクのすべてのケースで常にうまく機能しないという課題に対処する。
SEEDはLLM計算を極力ローカライズすることでコスト問題に対処する。
これには、ほとんどのLLMコールをローカルコードに置き換えること、ローカルモデル、バッチ処理やデータアクセスツールでLLMクエリを拡張することが含まれる。
有効性を確保するため、SEEDは、ローカライズされたソリューションとLLMクエリを強化するために、自動コードバリデーション、コードアンサンブル、モデル代表者選択、選択ツールの使用など、多くの最適化技術を備えている。
さらに、SEEDユーザーはアプリケーション用にカスタマイズされたデータ管理ソリューションを簡単に構築できる。
ユーザは各コンポーネントを設定し、自然言語で実行パイプラインを構成することができる。
SEEDは自動的に実行可能プログラムにコンパイルする。
本稿では,データ計算やNL2SQL翻訳などの多種多様なデータ管理タスクを用いたSEEDの効率と有効性を示す。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。