論文の概要: Petals: Collaborative Inference and Fine-tuning of Large Models
- arxiv url: http://arxiv.org/abs/2209.01188v1
- Date: Fri, 2 Sep 2022 17:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 13:02:22.772233
- Title: Petals: Collaborative Inference and Fine-tuning of Large Models
- Title(参考訳): Petals: 大規模モデルの協調推論と微調整
- Authors: Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin,
Younes Belkada, Artem Chumachenko, Pavel Samygin, Colin Raffel
- Abstract要約: 多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
- 参考スコア(独自算出の注目度): 78.37798144357977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many NLP tasks benefit from using large language models (LLMs) that often
have more than 100 billion parameters. With the release of BLOOM-176B and
OPT-175B, everyone can download pretrained models of this scale. Still, using
these models requires high-end hardware unavailable to many researchers. In
some cases, LLMs can be used more affordably via RAM offloading or hosted APIs.
However, these techniques have innate limitations: offloading is too slow for
interactive inference, while APIs are not flexible enough for research. In this
work, we propose Petals $-$ a system for inference and fine-tuning of large
models collaboratively by joining the resources of multiple parties trusted to
process client's data. We demonstrate that this strategy significantly
outperforms offloading for very large models, running inference of BLOOM-176B
on consumer GPUs with $\approx$ 1 step per second. Unlike most inference APIs,
Petals also natively exposes the hidden states of served models, allowing its
users to train and share custom model extensions based on efficient fine-tuning
methods.
- Abstract(参考訳): 多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
bloom-176b と opt-175b のリリースにより、このスケールのトレーニング済みモデルを誰でもダウンロードできる。
しかし、これらのモデルを使用するには、多くの研究者が利用できないハイエンドなハードウェアが必要である。
場合によっては、RAMオフロードやホストAPIを通じて、LCMをより安価に使用することができる。
オフロードはインタラクティブな推論には遅すぎるが、APIは研究に十分な柔軟性を持っていない。
本研究では,クライアントのデータ処理に信頼されている複数のパーティのリソースを連携させることにより,大規模モデルの推論と微調整を協調的に行うシステムであるpetals $-$を提案する。
この戦略は,コンシューマGPU上でBLOOM-176Bを1秒あたり$\approx$1ステップで実行することにより,非常に大きなモデルのオフロードを著しく上回ることを示す。
多くの推論APIとは異なり、Petalsはサービスモデルの隠された状態をネイティブに公開し、ユーザは効率的な微調整メソッドに基づいてカスタムモデル拡張をトレーニングおよび共有することができる。
関連論文リスト
- Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models [40.41898661688188]
本稿では,制約ハードウェア上での大規模AIモデルの実行を最適化するフレームワークであるSuperpipelineを紹介する。
Superpipelineは、モデル精度と許容する処理速度を維持しながら、実験でGPUメモリ使用量を最大60%削減します。
論文 参考訳(メタデータ) (2024-10-11T13:17:05Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Fast Inference of Mixture-of-Experts Language Models with Offloading [0.7998559449733824]
本研究では,アクセルメモリが限られているコンシューマハードウェア上で,大規模なMoE言語モデルを実行する際の問題点について検討する。
この戦略を用いることで、デスクトップハードウェアとフリーティアのGoogle Colabインスタンス上で、Mixtral-8x7Bを混合量子化して実行できます。
論文 参考訳(メタデータ) (2023-12-28T18:58:13Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Herd: Using multiple, smaller LLMs to match the performances of proprietary, large LLMs via an intelligent composer [1.3108652488669732]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。