論文の概要: Data-Prep-Kit: getting your data ready for LLM application development
- arxiv url: http://arxiv.org/abs/2409.18164v2
- Date: Wed, 13 Nov 2024 00:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:47.126750
- Title: Data-Prep-Kit: getting your data ready for LLM application development
- Title(参考訳): Data-Prep-Kit: LLMアプリケーション開発のためのデータ準備
- Authors: David Wood, Boris Lublinsky, Alexy Roytman, Shivdeep Singh, Constantin Adam, Abdulhamid Adebayo, Sungeun An, Yuan Chi Chang, Xuan-Hong Dang, Nirmit Desai, Michele Dolfi, Hajar Emami-Gohari, Revital Eres, Takuya Goto, Dhiraj Joshi, Yan Koyfman, Mohammad Nassar, Hima Patel, Paramesvaran Selvam, Yousaf Shah, Saptha Surendran, Daiki Tsuzuku, Petros Zerfos, Shahrokh Daijavad,
- Abstract要約: 本稿では,Data Prep Kit (DPK) と呼ばれる,使いやすく,フレキシブルで,スケールフレキシブルなオープンソースデータ作成ツールキットを提案する。
DPKは、ユーザが自分のニーズに合わせてデータ準備をスケールできるように設計され設計されている。
- 参考スコア(独自算出の注目度): 5.0516024357459015
- License:
- Abstract: Data preparation is the first and a very important step towards any Large Language Model (LLM) development. This paper introduces an easy-to-use, extensible, and scale-flexible open-source data preparation toolkit called Data Prep Kit (DPK). DPK is architected and designed to enable users to scale their data preparation to their needs. With DPK they can prepare data on a local machine or effortlessly scale to run on a cluster with thousands of CPU Cores. DPK comes with a highly scalable, yet extensible set of modules that transform natural language and code data. If the user needs additional transforms, they can be easily developed using extensive DPK support for transform creation. These modules can be used independently or pipelined to perform a series of operations. In this paper, we describe DPK architecture and show its performance from a small scale to a very large number of CPUs. The modules from DPK have been used for the preparation of Granite Models [1] [2]. We believe DPK is a valuable contribution to the AI community to easily prepare data to enhance the performance of their LLM models or to fine-tune models with Retrieval-Augmented Generation (RAG).
- Abstract(参考訳): データ準備は、あらゆる大規模言語モデル(LLM)開発への第一歩であり、非常に重要なステップです。
本稿では,Data Prep Kit (DPK) と呼ばれる,使いやすく,拡張性があり,スケールフレキシブルなオープンソースデータ作成ツールキットを提案する。
DPKは、ユーザが自分のニーズに合わせてデータ準備をスケールできるように設計され設計されている。
DPKを使用すると、ローカルマシン上でのデータの準備や、数千のCPUコアを持つクラスタ上での運用に苦労せずにスケールすることができる。
DPKは高度にスケーラブルで拡張可能なモジュールセットを備えており、自然言語とコードデータを変換する。
ユーザーが追加の変換が必要な場合、変換生成のために広範なDPKサポートを使用することで、容易に開発することができる。
これらのモジュールは独立して使用したり、パイプライン化して一連の操作を実行できる。
本稿では,DPKアーキテクチャを記述し,その性能を小規模から非常に多数のCPUに示す。
DPK の加群はグラナイトモデル [1] [2] の合成に用いられている。
DPKは、LLMモデルの性能向上や、Retrieval-Augmented Generation (RAG)による微調整モデルにデータを簡単に準備するために、AIコミュニティにとって貴重な貢献であると考えています。
関連論文リスト
- ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Scaling Data-Driven Building Energy Modelling using Large Language Models [3.0309252269809264]
本稿では,ビル管理システムにおけるデータ駆動型モデルの開発に伴うスケーラビリティ問題に対処する手法を提案する。
我々は、大規模言語モデル(LLM)を使用して、BMSから構造化データを処理するコードを生成し、BMS固有の要求に対してデータ駆動モデルを構築します。
ケーススタディでは、プロンプトテンプレートの下での双方向のプロンプトは、高いコード生成率とコード精度を実現し、人件費を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-03T19:34:24Z) - GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Jellyfish: A Large Language Model for Data Preprocessing [9.99065004972981]
命令チューニング型ローカルLLM (7-13Bモデル) を,ローカル,シングル,低価格のGPUで動作するユニバーサルDPタスクソルバとして検討する。
Mistral-7B、Llama 3-8B、OpenOrca-Platypus2-13Bをチューニングすることで、われわれのモデル、すなわちJellyfish-7B/8B/13BはGPT-3.5/4モデルと比較して競争力を発揮する。
論文 参考訳(メタデータ) (2023-12-04T07:01:54Z) - ModelScope-Agent: Building Your Customizable Agent System with
Open-source Large Language Models [74.64651681052628]
本稿では,オープンソースのLCMをコントローラとする実世界のアプリケーションのためのカスタマイズ可能なエージェントフレームワークであるModelScope-Agentを紹介する。
ユーザフレンドリーなシステムライブラリを提供し、カスタマイズ可能なエンジン設計により、複数のオープンソースLLMでモデルトレーニングをサポートする。
ツール使用データ収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、評価にまたがる包括的なフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-09-02T16:50:30Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。