論文の概要: LP Data Pipeline: Lightweight, Purpose-driven Data Pipeline for Large Language Models
- arxiv url: http://arxiv.org/abs/2411.11289v1
- Date: Mon, 18 Nov 2024 05:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:49.525104
- Title: LP Data Pipeline: Lightweight, Purpose-driven Data Pipeline for Large Language Models
- Title(参考訳): LP Data Pipeline: 大規模言語モデルのための軽量で目的駆動型データパイプライン
- Authors: Yungi Kim, Hyunsoo Ha, Seonghoon Yang, Sukyung Lee, Jihoo Kim, Chanjun Park,
- Abstract要約: 私たちは、CPUで完全に動作するフレームワークである、軽量で目的駆動型(LP)データパイプラインを紹介します。
4つのコア原則に基づいて、LP Data Pipelineは、高いデータ品質を維持しながら、準備時間とコストを大幅に削減します。
- 参考スコア(独自算出の注目度): 2.060383637820238
- License:
- Abstract: Creating high-quality, large-scale datasets for large language models (LLMs) often relies on resource-intensive, GPU-accelerated models for quality filtering, making the process time-consuming and costly. This dependence on GPUs limits accessibility for organizations lacking significant computational infrastructure. To address this issue, we introduce the Lightweight, Purpose-driven (LP) Data Pipeline, a framework that operates entirely on CPUs to streamline the processes of dataset extraction, filtering, and curation. Based on our four core principles, the LP Data Pipeline significantly reduces preparation time and cost while maintaining high data quality. Importantly, our pipeline enables the creation of purpose-driven datasets tailored to specific domains and languages, enhancing the applicability of LLMs in specialized contexts. We anticipate that our pipeline will lower the barriers to LLM development, enabling a wide range of organizations to access LLMs more easily.
- Abstract(参考訳): 大規模言語モデル(LLM)のための高品質で大規模なデータセットを作成する場合、しばしば、品質フィルタリングのためのリソース集約型GPUアクセラレーションモデルに依存し、プロセスの時間とコストがかかる。
このGPUへの依存は、重要な計算インフラを持たない組織へのアクセシビリティを制限する。
この問題に対処するために、データセット抽出、フィルタリング、キュレーションのプロセスを合理化するために、CPUで完全に動作するフレームワークであるLightweight, Purpose-driven (LP) Data Pipelineを紹介します。
4つのコア原則に基づいて、LP Data Pipelineは、高いデータ品質を維持しながら、準備時間とコストを大幅に削減します。
重要なことは、パイプラインは特定のドメインや言語に適した目的駆動型データセットの作成を可能にし、特殊なコンテキストにおけるLLMの適用性を高めることである。
私たちは、パイプラインがLLM開発における障壁を低くし、幅広い組織がLLMにアクセスしやすくすることを期待しています。
関連論文リスト
- Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles [13.64363652226897]
長いコンテキスト処理を持つ大規模言語モデル(LLM)は、実装の複雑さ、訓練効率、データの分散性のために、依然として難しい。
オンラインLong-Context Processing(OLP)は、無制限のドキュメントを処理する際に提案されるもので、通常は、自動ニュースレポーティング、ライブeコマース、バイラルショートビデオなどの多様なストリーミングメディアの情報受信と組織化に発生する。
また,OLPパイプライン内の各ロールに,実際の性能に応じて異なるLLMを自動デプロイする役割強化学習(Role-RL)を開発した。
論文 参考訳(メタデータ) (2024-09-26T16:22:59Z) - LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs [11.664088080448593]
LlamaDuo"は、サービス指向の大規模言語モデルから、より小さく、ローカルに管理可能なモデルに移行するためのパイプラインである。
当社のパイプラインは,運用上の障害や厳格なプライバシポリシ,あるいはオフライン要件の存在下でのサービス継続性の確保に不可欠です。
論文 参考訳(メタデータ) (2024-08-24T05:03:08Z) - Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models [21.864109456867784]
多くの下流タスクでは、プライベートデータを使用して大きな言語モデル(LLM)を微調整する必要がある。
我々はFedPipeという自動フェデレーションパイプラインを提案し、最小のトレーニングコストでLLMを微調整する。
大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。
論文 参考訳(メタデータ) (2024-04-09T16:50:30Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。