論文の概要: Scaling Down to Scale Up: A Cost-Benefit Analysis of Replacing OpenAI's LLM with Open Source SLMs in Production
- arxiv url: http://arxiv.org/abs/2312.14972v3
- Date: Tue, 16 Apr 2024 19:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:10:55.499542
- Title: Scaling Down to Scale Up: A Cost-Benefit Analysis of Replacing OpenAI's LLM with Open Source SLMs in Production
- Title(参考訳): スケールダウンからスケールアップ: OpenAI の LLM をオープンソース SLM に置き換えたコストベネフィット分析
- Authors: Chandra Irugalbandara, Ashish Mahendra, Roland Daynauth, Tharuka Kasthuri Arachchige, Jayanaka Dantanarayana, Krisztian Flautner, Lingjia Tang, Yiping Kang, Jason Mars,
- Abstract要約: 多くの企業は、OpenAIのGPT-4のようなサービスとして提供される大きな言語モデル(LLM)を使用して、AI対応製品エクスペリエンスを作成している。
同時に、オープンソースのスモールランゲージモデル(SLM)が市販されている。
本稿では,現代のオープンソースSLMの体系的評価手法と特徴について述べる。
- 参考スコア(独自算出の注目度): 3.41402911469979
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many companies use large language models (LLMs) offered as a service, like OpenAI's GPT-4, to create AI-enabled product experiences. Along with the benefits of ease-of-use and shortened time-to-solution, this reliance on proprietary services has downsides in model control, performance reliability, uptime predictability, and cost. At the same time, a flurry of open-source small language models (SLMs) has been made available for commercial use. However, their readiness to replace existing capabilities remains unclear, and a systematic approach to holistically evaluate these SLMs is not readily available. This paper presents a systematic evaluation methodology and a characterization of modern open-source SLMs and their trade-offs when replacing proprietary LLMs for a real-world product feature. We have designed SLaM, an open-source automated analysis tool that enables the quantitative and qualitative testing of product features utilizing arbitrary SLMs. Using SLaM, we examine the quality and performance characteristics of modern SLMs relative to an existing customer-facing implementation using the OpenAI GPT-4 API. Across 9 SLMs and their 29 variants, we observe that SLMs provide competitive results, significant performance consistency improvements, and a cost reduction of 5x~29x when compared to GPT-4.
- Abstract(参考訳): 多くの企業は、OpenAIのGPT-4のようなサービスとして提供される大きな言語モデル(LLM)を使用して、AI対応製品エクスペリエンスを作成している。
使いやすさとソリューションの短縮によるメリットに加えて、プロプライエタリなサービスへの依存は、モデル制御、パフォーマンスの信頼性、アップタイム予測可能性、コストに欠点があります。
同時に、オープンソースのスモールランゲージモデル(SLM)が市販されている。
しかし、既存の機能を置き換えるための準備が整っていないため、これらのSLMを体系的に評価する体系的なアプローチは、容易には利用できない。
本稿では,現代のオープンソース SLM の体系的評価手法と,実世界の製品機能として独自 LLM を代替する際のトレードオフについて述べる。
我々は、任意のSLMを用いて製品機能の定量的かつ質的なテストを可能にするオープンソースの自動分析ツールであるSLaMを設計した。
SLaMを用いて,OpenAI GPT-4 APIを用いた既存の顧客向け実装と比較して,現代のSLMの品質と性能について検討した。
9種類のSLMと29種類のSLMに対して,GPT-4と比較すると,SLMは競争結果,性能の大幅な改善,コストの5倍~29倍の削減を実現している。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - EasyJudge: an Easy-to-use Tool for Comprehensive Response Evaluation of LLMs [6.179084469089114]
本稿では,重要な言語モデル応答を評価するために開発された EasyJudge を提案する。
軽量で、正確で、効率的で、ユーザフレンドリで、デプロイや使用が容易な、直感的な視覚化インターフェースを備えている。
論文 参考訳(メタデータ) (2024-10-13T08:24:12Z) - RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - Towards Optimizing the Costs of LLM Usage [4.032848774697859]
理論的にも経験的にも、品質とコストを両立させる最適化問題について検討する。
トークンを品質に配慮した方法で低減するためのいくつかの決定論的手法を提案する。
本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
論文 参考訳(メタデータ) (2024-01-29T16:36:31Z) - From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness and Causality through Four Modalities [111.44485171421535]
本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。
これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。
我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
論文 参考訳(メタデータ) (2024-01-26T18:53:03Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - Impact of Large Language Models on Generating Software Specifications [14.88090169737112]
大規模言語モデル(LLM)は多くのソフトウェア工学のタスクにうまく適用されている。
ソフトウェアコメントやドキュメントからソフトウェア仕様を生成するLLMの機能を評価する。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z) - On the Tool Manipulation Capability of Open-source Large Language Models [19.6917640220883]
オープンソース LLM を強化して,ツール操作においてクローズド LLM API をリードする上での競争力を示すことができることを示す。
当社の技術は,オープンソースLLMを最大90%の成功率で向上させ,8つのツールベンチタスクのうち4つでOpenAI GPT-4と競合する能力を示す。
論文 参考訳(メタデータ) (2023-05-25T22:10:20Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。