論文の概要: LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs
- arxiv url: http://arxiv.org/abs/2408.13467v2
- Date: Thu, 29 Aug 2024 00:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 18:25:25.196332
- Title: LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs
- Title(参考訳): LlamaDuo: サービスLLMから小規模ローカルLLMへのシームレス移行のためのLLMOpsパイプライン
- Authors: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jing Tang,
- Abstract要約: LlamaDuo"は、サービス指向の大規模言語モデルから、より小さく、ローカルに管理可能なモデルに移行するためのパイプラインである。
当社のパイプラインは,運用上の障害や厳格なプライバシポリシ,あるいはオフライン要件の存在下でのサービス継続性の確保に不可欠です。
- 参考スコア(独自算出の注目度): 11.664088080448593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of cloud-based proprietary large language models (LLMs) has introduced significant challenges, including operational dependencies, privacy concerns, and the necessity of continuous internet connectivity. In this work, we introduce an LLMOps pipeline, "LlamaDuo", for the seamless migration of knowledge and abilities from service-oriented LLMs to smaller, locally manageable models. This pipeline is crucial for ensuring service continuity in the presence of operational failures, strict privacy policies, or offline requirements. Our LlamaDuo involves fine-tuning a small language model against the service LLM using a synthetic dataset generated by the latter. If the performance of the fine-tuned model falls short of expectations, it is enhanced by further fine-tuning with additional similar data created by the service LLM. This iterative process guarantees that the smaller model can eventually match or even surpass the service LLM's capabilities in specific downstream tasks, offering a practical and scalable solution for managing AI deployments in constrained environments. Extensive experiments with leading edge LLMs are conducted to demonstrate the effectiveness, adaptability, and affordability of LlamaDuo across various downstream tasks. Our pipeline implementation is available at https://github.com/deep-diver/llamaduo.
- Abstract(参考訳): クラウドベースのプロプライエタリな大規模言語モデル(LLM)の普及は、運用上の依存関係、プライバシの懸念、継続的なインターネット接続の必要性など、大きな課題をもたらしている。
本研究では,LLMOpsパイプライン"LlamaDuo"を導入し,サービス指向のLLMから,より小型でローカルに管理可能なモデルへの,知識と能力のシームレスな移行を実現する。
このパイプラインは、運用上の障害、厳格なプライバシポリシ、あるいはオフライン要件の存在下でのサービス継続性を保証するために不可欠である。
私たちのLlamaDuoは、後者によって生成された合成データセットを使用して、サービスLLMに対して小さな言語モデルを微調整します。
細調整されたモデルの性能が期待に届かなかった場合、サービスLLMが作成した類似したデータを追加してさらに細調整を行うことで、性能が向上する。
この反復的なプロセスは、小さなモデルが最終的に特定の下流タスクでLLMの能力と一致または超えることを保証するもので、制約のある環境でAIデプロイメントを管理するための実用的でスケーラブルなソリューションを提供する。
各種下流タスクにおけるLlamaDuoの有効性,適応性,手頃性を示すために,先進LLMを用いた大規模実験を行った。
パイプラインの実装はhttps://github.com/deep-diver/llamaduo.comで公開しています。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示す。
本稿では,テキストベースの生成IoT(GIoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving [2.9164564021428845]
大規模言語モデル(LLM)サービスのためのマルチモデルキュー管理フレームワークを提案する。
QLM は複数の LLM Serving Operations (LSOs) の動作をオーケストレーションし、HOL ブロックの削減と達成率の最大化を図っている。
実世界のLLMサービスデータセットを用いた異種GPUデバイスおよびモデルの評価では、QLMはSLO達成率を40-90%改善し、スループットを20-400%向上した。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models [21.864109456867784]
多くの下流タスクでは、プライベートデータを使用して大きな言語モデル(LLM)を微調整する必要がある。
我々はFedPipeという自動フェデレーションパイプラインを提案し、最小のトレーニングコストでLLMを微調整する。
大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。
論文 参考訳(メタデータ) (2024-04-09T16:50:30Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - O3D: Offline Data-driven Discovery and Distillation for Sequential
Decision-Making with Large Language Models [16.91329676173649]
大規模言語モデル(LLM)を改善するために,オフラインデータ駆動型ディスカバリ・蒸留(O3D)を提案する。
O3Dは、再利用可能なスキルを自動的に発見し、オフラインインタラクションデータに基づいて、複数のタスクにまたがる一般化可能な知識を蒸留する。
2つの対話型意思決定ベンチマーク (ALFWorld と WebShop) による実証結果から,O3D が LLM の意思決定能力を著しく向上できることが確認された。
論文 参考訳(メタデータ) (2023-10-22T20:28:33Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。