論文の概要: Cost-effective Deployment of BERT Models in Serverless Environment
- arxiv url: http://arxiv.org/abs/2103.10673v1
- Date: Fri, 19 Mar 2021 07:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 19:12:14.301846
- Title: Cost-effective Deployment of BERT Models in Serverless Environment
- Title(参考訳): サーバーレス環境におけるBERTモデルの低コスト展開
- Authors: Katar\'ina Bene\v{s}ov\'a, Andrej \v{S}vec, Marek \v{S}uppa
- Abstract要約: 本研究では,実運用環境におけるBERTスタイルのモデルをAWS Lambdaにデプロイ可能であることを示す。
我々は,実世界の2つの課題(感情分析と意味的類似性)に対して,知識蒸留とプロプライエタリなデータセット上でのモデルを微調整する。
その後のパフォーマンス分析は、本ソリューションが本番使用に許容されるレイテンシレベルを報告しているだけでなく、BERTモデルの小規模から中規模のデプロイメントに対する費用対効果も示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this study we demonstrate the viability of deploying BERT-style models to
AWS Lambda in a production environment. Since the freely available pre-trained
models are too large to be deployed in this way, we utilize knowledge
distillation and fine-tune the models on proprietary datasets for two
real-world tasks: sentiment analysis and semantic textual similarity. As a
result, we obtain models that are tuned for a specific domain and deployable in
the serverless environment. The subsequent performance analysis shows that this
solution does not only report latency levels acceptable for production use but
that it is also a cost-effective alternative to small-to-medium size
deployments of BERT models, all without any infrastructure overhead.
- Abstract(参考訳): 本研究では,実運用環境におけるBERTスタイルのモデルをAWS Lambdaにデプロイ可能であることを示す。
フリーで利用できる事前学習モデルは、このように展開するには大きすぎるため、知識蒸留を利用して、2つの現実世界のタスクのためのプロプライエタリデータセット上のモデルを微調整する:感情分析とセマンティックテキストの類似性。
その結果、特定のドメイン用に調整され、サーバレス環境にデプロイ可能なモデルが得られます。
その後のパフォーマンス分析は、このソリューションが本番使用に許容されるレイテンシレベルを報告しているだけでなく、BERTモデルの小規模から中規模へのデプロイメントに費用対効果があることを示している。
関連論文リスト
- SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - EUDA: An Efficient Unsupervised Domain Adaptation via Self-Supervised Vision Transformer [21.59850502993888]
教師なしドメイン適応(UDA)は、トレーニング(ソース)データの分散がテスト(ターゲット)データと異なる領域シフトの問題を軽減することを目的としている。
この問題に対処するために多くのモデルが開発され、近年では視覚変換器(ViT)が有望な結果を示している。
本稿では、トレーニング可能なパラメータを削減し、調整可能な複雑性を実現するための効率的なモデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T03:29:28Z) - Comparative Analysis of AWS Model Deployment Services [0.0]
SageMaker、Lambda、Elastic Container Service(ECS)の3つの重要なモデルデプロイサービスを提供している。
この分析によると、Lambdaサービスは、モデル開発時の効率性、自動スケーリングの側面、統合を導く。
ECSは、柔軟性、スケーラビリティ、インフラストラクチャ制御の点で際立っていることが判明した。
論文 参考訳(メタデータ) (2024-05-13T20:51:23Z) - Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。
分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文 参考訳(メタデータ) (2024-05-08T04:38:36Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Predicting Resource Consumption of Kubernetes Container Systems using
Resource Models [3.138731415322007]
本稿では,クラウドシステムの資源モデルを実証的に導き出す方法について考察する。
私たちは、CPUとメモリリソースに明示的に準拠したフォーマルな言語でデプロイされたサービスのモデルに基づいています。
我々は、小規模なデプロイメントから収集したデータを経験的に活用して、より大きなデプロイメント上での高強度シナリオの実行をシミュレートする。
論文 参考訳(メタデータ) (2023-05-12T17:59:01Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - On Universal Black-Box Domain Adaptation [53.7611757926922]
実践的な展開という観点から,ドメイン適応の最小限の制約条件について検討する。
ソースモデルのインターフェースのみがターゲットドメインで利用可能であり、2つのドメイン間のラベル空間関係が異なることや未知であることが許されている。
対象試料の局所近傍における予測の整合性によって正規化された自己訓練フレームワークに統一することを提案する。
論文 参考訳(メタデータ) (2021-04-10T02:21:09Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。