Fugu-MT 論文翻訳(概要): The Costly Dilemma: Generalization, Evaluation and Cost-Optimal Deployment of Large Language Models

論文の概要: The Costly Dilemma: Generalization, Evaluation and Cost-Optimal Deployment of Large Language Models

arxiv url: http://arxiv.org/abs/2308.08061v1
Date: Tue, 15 Aug 2023 22:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 15:22:50.352296
Title: The Costly Dilemma: Generalization, Evaluation and Cost-Optimal Deployment of Large Language Models
Title（参考訳）: コストジレンマ:大規模言語モデルの一般化、評価、コスト最適展開
Authors: Abi Aryan, Aakash Kumar Nain, Andrew McMahon, Lucas Augusto Meyer, Harpreet Singh Sahota
Abstract要約: 本稿では,大規模言語モデルに適した一般化,評価,コストモデリングのためのフレームワークを提案する。これらの大きな言語モデルの開発、デプロイメント、管理の複雑さに関する洞察を提供する。
参考スコア（独自算出の注目度）: 0.22499166814992438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When deploying machine learning models in production for any product/application, there are three properties that are commonly desired. First, the models should be generalizable, in that we can extend it to further use cases as our knowledge of the domain area develops. Second they should be evaluable, so that there are clear metrics for performance and the calculation of those metrics in production settings are feasible. Finally, the deployment should be cost-optimal as far as possible. In this paper we propose that these three objectives (i.e. generalization, evaluation and cost-optimality) can often be relatively orthogonal and that for large language models, despite their performance over conventional NLP models, enterprises need to carefully assess all the three factors before making substantial investments in this technology. We propose a framework for generalization, evaluation and cost-modeling specifically tailored to large language models, offering insights into the intricacies of development, deployment and management for these large language models.
Abstract（参考訳）: 製品/アプリケーションの実運用環境に機械学習モデルをデプロイする場合、一般的に望まれる3つの特性がある。まず、ドメイン領域に関する知識が発展するにつれて、さらにユースケースに拡張できるモデルが一般化されるべきです。第二に、パフォーマンスの明確な指標と製品設定でのメトリクスの計算が実現可能であるように、彼らは回避可能であるべきです。最後に、デプロイメントは可能な限りコスト最適であるべきです。本稿では,これらの3つの目的(一般化,評価,コスト最適性)は比較的直交的であり,大規模言語モデルでは従来のNLPモデルよりも性能が高いにもかかわらず,企業が本技術に実質的な投資を行う前に,これら3つの要因をすべて慎重に評価する必要があることを提案する。本稿では,大規模言語モデルに特化した一般化,評価,コストモデリングのためのフレームワークを提案し,これら大規模言語モデルの開発と展開,管理の複雑さについて考察する。

関連論文リスト

Synergistic Weak-Strong Collaboration by Aligning Preferences [53.47675666475273]
現在のLarge Language Models (LLMs) は、プロプライエタリな知識やドメイン固有の知識を必要とする特別なタスクに苦戦する一般的な推論において優れている。本稿では、特殊な弱いモデルと一般的な強いモデルとを組み合わせた協調的なフレームワークを提案する。相補的な強みを活用することで、コラボレーションが各モデルを単独で著しく上回っていることが分かりました。
論文参考訳（メタデータ） (2025-04-21T15:57:33Z)
Beyond Next Word Prediction: Developing Comprehensive Evaluation Frameworks for measuring LLM performance on real world applications [3.686808512438363]
大規模言語モデル (LLM) には多くのユースケースがあり、すでにかなりの数の企業採用を獲得している。本稿では,従来のゲームおよびツールベースのアーキテクチャに基づく,より包括的な評価フレームワークの基礎を提供する。
論文参考訳（メタデータ） (2025-03-05T06:44:38Z)
Generative Models in Decision Making: A Survey [63.68746774576147]
生成モデルは、高逆状態反応領域や中間部分ゴールへエージェントを誘導する軌道を生成することによって意思決定システムに組み込むことができる。本稿では,意思決定タスクにおける生成モデルの適用について概説する。
論文参考訳（メタデータ） (2025-02-24T12:31:28Z)
Language Models in Software Development Tasks: An Experimental Analysis of Energy and Accuracy [40.793232371852795]
本稿では,言語モデルをローカルに展開する際のモデル精度とエネルギー消費のトレードオフについて検討する。以上の結果から,LLMの高エネルギー化は必ずしも精度を著しく向上させるものではないことが示唆された。大規模モデルの量子化バージョンは、一般的に中型のモデルに比べて効率と精度が良い。
論文参考訳（メタデータ） (2024-11-30T03:02:50Z)
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文参考訳（メタデータ） (2024-07-30T08:50:16Z)
Software Model Evolution with Large Language Models: Experiments on Simulated, Public, and Industrial Datasets [6.585732390922304]
RAMCを用いたモデル補完のための大規模言語モデルの可能性を評価する。大規模な言語モデルは、ソフトウェアモデルの進化をサポートするための有望な技術であることがわかった。大規模言語モデルの一般的な推論能力は、ほとんど、うるさい、あるいは全く例のない概念を扱う際に特に有用である。
論文参考訳（メタデータ） (2024-06-25T15:43:20Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文参考訳（メタデータ） (2023-11-11T11:13:07Z)
MindLLM: Pre-training Lightweight Large Language Model from Scratch, Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。 MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文参考訳（メタデータ） (2023-10-24T12:22:34Z)
GLoRE: Evaluating Logical Reasoning of Large Language Models [20.77694584450457]
GLoREは、多様なデータセットを統合し、それらを大きな言語モデルを評価するための統一フォーマットに標準化するプラットフォームである。実験結果から,OpenAIのo1 miniやDeepSeek R1,QwQ-32Bといった大規模推論モデルの論理的推論能力は,人体の性能と教師付き微調整モデルと比較して著しく向上したことがわかった。
論文参考訳（メタデータ） (2023-10-13T13:52:15Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Legal-Tech Open Diaries: Lesson learned on how to develop and deploy light-weight models in the era of humongous Language Models [10.086015702323971]
私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。 5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
論文参考訳（メタデータ） (2022-10-24T10:08:59Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。 XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文参考訳（メタデータ） (2021-09-15T08:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。