論文の概要: The Costly Dilemma: Generalization, Evaluation and Cost-Optimal
Deployment of Large Language Models
- arxiv url: http://arxiv.org/abs/2308.08061v1
- Date: Tue, 15 Aug 2023 22:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:22:50.352296
- Title: The Costly Dilemma: Generalization, Evaluation and Cost-Optimal
Deployment of Large Language Models
- Title(参考訳): コストジレンマ:大規模言語モデルの一般化、評価、コスト最適展開
- Authors: Abi Aryan, Aakash Kumar Nain, Andrew McMahon, Lucas Augusto Meyer,
Harpreet Singh Sahota
- Abstract要約: 本稿では,大規模言語モデルに適した一般化,評価,コストモデリングのためのフレームワークを提案する。
これらの大きな言語モデルの開発、デプロイメント、管理の複雑さに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying machine learning models in production for any
product/application, there are three properties that are commonly desired.
First, the models should be generalizable, in that we can extend it to further
use cases as our knowledge of the domain area develops. Second they should be
evaluable, so that there are clear metrics for performance and the calculation
of those metrics in production settings are feasible. Finally, the deployment
should be cost-optimal as far as possible. In this paper we propose that these
three objectives (i.e. generalization, evaluation and cost-optimality) can
often be relatively orthogonal and that for large language models, despite
their performance over conventional NLP models, enterprises need to carefully
assess all the three factors before making substantial investments in this
technology. We propose a framework for generalization, evaluation and
cost-modeling specifically tailored to large language models, offering insights
into the intricacies of development, deployment and management for these large
language models.
- Abstract(参考訳): 製品/アプリケーションの実運用環境に機械学習モデルをデプロイする場合、一般的に望まれる3つの特性がある。
まず、ドメイン領域に関する知識が発展するにつれて、さらにユースケースに拡張できるモデルが一般化されるべきです。
第二に、パフォーマンスの明確な指標と製品設定でのメトリクスの計算が実現可能であるように、彼らは回避可能であるべきです。
最後に、デプロイメントは可能な限りコスト最適であるべきです。
本稿では,これらの3つの目的(一般化,評価,コスト最適性)は比較的直交的であり,大規模言語モデルでは従来のNLPモデルよりも性能が高いにもかかわらず,企業が本技術に実質的な投資を行う前に,これら3つの要因をすべて慎重に評価する必要があることを提案する。
本稿では,大規模言語モデルに特化した一般化,評価,コストモデリングのためのフレームワークを提案し,これら大規模言語モデルの開発と展開,管理の複雑さについて考察する。
関連論文リスト
- Assessing generalization capability of text ranking models in Polish [0.0]
Retrieval-augmented Generation (RAG) は、内部知識ベースと大規模言語モデルを統合する技術として、ますます人気が高まっている。
本稿では,ポーランド語におけるリランク問題に着目し,リランカーの性能について検討する。
私たちのモデルの中で最高のものは、ポーランド語で再ランク付けするための新しい最先端技術を確立し、最大30倍のパラメータを持つ既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-22T06:21:41Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2022-10-24T10:08:59Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文 参考訳(メタデータ) (2021-09-15T08:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。