論文の概要: Petals: Collaborative Inference and Fine-tuning of Large Models
- arxiv url: http://arxiv.org/abs/2209.01188v1
- Date: Fri, 2 Sep 2022 17:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 13:02:22.772233
- Title: Petals: Collaborative Inference and Fine-tuning of Large Models
- Title(参考訳): Petals: 大規模モデルの協調推論と微調整
- Authors: Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin,
Younes Belkada, Artem Chumachenko, Pavel Samygin, Colin Raffel
- Abstract要約: 多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
BLOOM-176BとOPT-175Bのリリースにより、誰もがこのスケールで事前訓練されたモデルをダウンロードできる。
我々は,大規模モデルの推測と微調整を協調的に行うシステムとして,Petals $-$を提案する。
- 参考スコア(独自算出の注目度): 78.37798144357977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many NLP tasks benefit from using large language models (LLMs) that often
have more than 100 billion parameters. With the release of BLOOM-176B and
OPT-175B, everyone can download pretrained models of this scale. Still, using
these models requires high-end hardware unavailable to many researchers. In
some cases, LLMs can be used more affordably via RAM offloading or hosted APIs.
However, these techniques have innate limitations: offloading is too slow for
interactive inference, while APIs are not flexible enough for research. In this
work, we propose Petals $-$ a system for inference and fine-tuning of large
models collaboratively by joining the resources of multiple parties trusted to
process client's data. We demonstrate that this strategy significantly
outperforms offloading for very large models, running inference of BLOOM-176B
on consumer GPUs with $\approx$ 1 step per second. Unlike most inference APIs,
Petals also natively exposes the hidden states of served models, allowing its
users to train and share custom model extensions based on efficient fine-tuning
methods.
- Abstract(参考訳): 多くのNLPタスクは、1000億以上のパラメータを持つ大きな言語モデル(LLM)を使用することで恩恵を受ける。
bloom-176b と opt-175b のリリースにより、このスケールのトレーニング済みモデルを誰でもダウンロードできる。
しかし、これらのモデルを使用するには、多くの研究者が利用できないハイエンドなハードウェアが必要である。
場合によっては、RAMオフロードやホストAPIを通じて、LCMをより安価に使用することができる。
オフロードはインタラクティブな推論には遅すぎるが、APIは研究に十分な柔軟性を持っていない。
本研究では,クライアントのデータ処理に信頼されている複数のパーティのリソースを連携させることにより,大規模モデルの推論と微調整を協調的に行うシステムであるpetals $-$を提案する。
この戦略は,コンシューマGPU上でBLOOM-176Bを1秒あたり$\approx$1ステップで実行することにより,非常に大きなモデルのオフロードを著しく上回ることを示す。
多くの推論APIとは異なり、Petalsはサービスモデルの隠された状態をネイティブに公開し、ユーザは効率的な微調整メソッドに基づいてカスタムモデル拡張をトレーニングおよび共有することができる。
関連論文リスト
- Efficient model compression with Random Operation Access Specific Tile
(ROAST) hashing [35.67591281350068]
本稿では,Random Operation Access Specific Tile(ROAST)ハッシュ法を提案する。
ROASTでは、最初の圧縮BERTを提示します。
トランスフォーマーのようなユニバーサルアーキテクチャ上のこれらの圧縮レベルは、モバイルやエッジデバイスのようなリソース制約のあるデバイスへのSOTAモデル展開の将来を約束している。
論文 参考訳(メタデータ) (2022-07-21T18:31:17Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - No One Left Behind: Inclusive Federated Learning over Heterogeneous
Devices [79.16481453598266]
この問題に対処するクライアント包摂的フェデレーション学習手法であるInclusiveFLを提案する。
InclusiveFLの中核となる考え方は、異なるサイズのモデルを異なる計算能力を持つクライアントに割り当てることである。
また,異なる大きさの複数の局所モデル間で知識を共有する効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T13:03:27Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文 参考訳(メタデータ) (2021-08-04T17:28:45Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。