論文の概要: The Costly Dilemma: Generalization, Evaluation and Cost-Optimal
Deployment of Large Language Models
- arxiv url: http://arxiv.org/abs/2308.08061v1
- Date: Tue, 15 Aug 2023 22:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:22:50.352296
- Title: The Costly Dilemma: Generalization, Evaluation and Cost-Optimal
Deployment of Large Language Models
- Title(参考訳): コストジレンマ:大規模言語モデルの一般化、評価、コスト最適展開
- Authors: Abi Aryan, Aakash Kumar Nain, Andrew McMahon, Lucas Augusto Meyer,
Harpreet Singh Sahota
- Abstract要約: 本稿では,大規模言語モデルに適した一般化,評価,コストモデリングのためのフレームワークを提案する。
これらの大きな言語モデルの開発、デプロイメント、管理の複雑さに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying machine learning models in production for any
product/application, there are three properties that are commonly desired.
First, the models should be generalizable, in that we can extend it to further
use cases as our knowledge of the domain area develops. Second they should be
evaluable, so that there are clear metrics for performance and the calculation
of those metrics in production settings are feasible. Finally, the deployment
should be cost-optimal as far as possible. In this paper we propose that these
three objectives (i.e. generalization, evaluation and cost-optimality) can
often be relatively orthogonal and that for large language models, despite
their performance over conventional NLP models, enterprises need to carefully
assess all the three factors before making substantial investments in this
technology. We propose a framework for generalization, evaluation and
cost-modeling specifically tailored to large language models, offering insights
into the intricacies of development, deployment and management for these large
language models.
- Abstract(参考訳): 製品/アプリケーションの実運用環境に機械学習モデルをデプロイする場合、一般的に望まれる3つの特性がある。
まず、ドメイン領域に関する知識が発展するにつれて、さらにユースケースに拡張できるモデルが一般化されるべきです。
第二に、パフォーマンスの明確な指標と製品設定でのメトリクスの計算が実現可能であるように、彼らは回避可能であるべきです。
最後に、デプロイメントは可能な限りコスト最適であるべきです。
本稿では,これらの3つの目的(一般化,評価,コスト最適性)は比較的直交的であり,大規模言語モデルでは従来のNLPモデルよりも性能が高いにもかかわらず,企業が本技術に実質的な投資を行う前に,これら3つの要因をすべて慎重に評価する必要があることを提案する。
本稿では,大規模言語モデルに特化した一般化,評価,コストモデリングのためのフレームワークを提案し,これら大規模言語モデルの開発と展開,管理の複雑さについて考察する。
関連論文リスト
- Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Software Model Evolution with Large Language Models: Experiments on Simulated, Public, and Industrial Datasets [6.585732390922304]
RAMCを用いたモデル補完のための大規模言語モデルの可能性を評価する。
大規模な言語モデルは、ソフトウェアモデルの進化をサポートするための有望な技術であることがわかった。
大規模言語モデルの一般的な推論能力は、ほとんど、うるさい、あるいは全く例のない概念を扱う際に特に有用である。
論文 参考訳(メタデータ) (2024-06-25T15:43:20Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文 参考訳(メタデータ) (2021-09-15T08:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。