Fugu-MT 論文翻訳(概要): A Trade-off Analysis of Replacing Proprietary LLMs with Open Source SLMs in Production

論文の概要: A Trade-off Analysis of Replacing Proprietary LLMs with Open Source SLMs in Production

arxiv url: http://arxiv.org/abs/2312.14972v2
Date: Mon, 15 Jan 2024 15:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 21:19:10.802174
Title: A Trade-off Analysis of Replacing Proprietary LLMs with Open Source SLMs in Production
Title（参考訳）: オープンソースSLMによるLLMのリプレースに関するトレードオフ解析
Authors: Chandra Irugalbandara, Ashish Mahendra, Roland Daynauth, Tharuka Kasthuri Arachchige, Krisztian Flautner, Lingjia Tang, Yiping Kang, Jason Mars
Abstract要約: 多くの企業は、OpenAIのGPT-4のようなマネージドAIモデルのAPIを使用して、製品内でAI対応エクスペリエンスを作成している。同時に、商用で利用可能なオープンソースの小型言語モデル(SLM)が急増している。
参考スコア（独自算出の注目度）: 3.6101009633190575
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Many companies rely on APIs of managed AI models such as OpenAI's GPT-4 to create AI-enabled experiences in their products. Along with the benefits of ease of use and shortened time to production, this reliance on proprietary APIs has downsides in terms of model control, performance reliability, up-time predictability, and cost. At the same time, there has been a flurry of open source small language models (SLMs) that have been made available for commercial use. However, their readiness to replace existing capabilities remains unclear, and a systematic approach to test these models is not readily available. In this paper, we present a systematic evaluation methodology for, and characterization of, modern open source SLMs and their trade-offs when replacing a proprietary LLM APIs for a real-world product feature. We have designed SLaM, an automated analysis tool that enables the quantitative and qualitative testing of product features utilizing arbitrary SLMs. Using SLaM, we examine both the quality and the performance characteristics of modern SLMs relative to an existing customer-facing OpenAI-based implementation. We find that across 9 SLMs and 29 variants, we observe competitive quality-of-results for our use case, significant performance consistency improvement, and a cost reduction of 5x-29x when compared to OpenAI GPT-4.
Abstract（参考訳）: 多くの企業は、OpenAIのGPT-4のようなマネージドAIモデルのAPIを使用して、製品内でAI対応エクスペリエンスを作成している。使いやすさと運用時間短縮のメリットに加えて、プロプライエタリなAPIへの依存は、モデル制御、パフォーマンス信頼性、アップタイム予測可能性、コストの面でマイナス面がある。同時に、商用で利用可能なオープンソースの小型言語モデル(SLM)が急増している。しかし、既存の機能を置き換える準備が整っていないため、これらのモデルをテストするための体系的なアプローチは容易には利用できない。本稿では,LLMのプロプライエタリなAPIを現実の製品機能に置き換える際の,現代的なオープンソースSLMとそのトレードオフの体系的評価手法を提案する。 SLaMは、任意のSLMを用いて製品機能の定量的かつ質的なテストを可能にする自動分析ツールである。 SLaMを用いて、既存のOpenAIベースの実装と比較して、現代のSLMの品質特性と性能特性について検討する。 9種類のSLMと29種類のSLMに対して,OpenAI GPT-4と比較した場合の競合品質,大幅な性能改善,5x-29xのコスト削減について検討した。

関連論文リスト

COSMosFL: Ensemble of Small Language Models for Fault Localisation [11.720815956899116]
投票機構を用いたタスクレベルのLCMアンサンブル手法であるCOSMosを提案する。本稿では, LLMの精度とエネルギー消費, 推定時間, 使用するトークン数といった様々なコストとの間の費用対効果のトレードオフについて報告する。
論文参考訳（メタデータ） (2025-02-05T06:09:26Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
EasyJudge: an Easy-to-use Tool for Comprehensive Response Evaluation of LLMs [6.179084469089114]
本稿では,重要な言語モデル応答を評価するために開発された EasyJudge を提案する。軽量で、正確で、効率的で、ユーザフレンドリで、デプロイや使用が容易な、直感的な視覚化インターフェースを備えている。
論文参考訳（メタデータ） (2024-10-13T08:24:12Z)
RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。 RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-05-27T14:37:01Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
Towards Optimizing the Costs of LLM Usage [4.032848774697859]
理論的にも経験的にも、品質とコストを両立させる最適化問題について検討する。トークンを品質に配慮した方法で低減するためのいくつかの決定論的手法を提案する。本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
論文参考訳（メタデータ） (2024-01-29T16:36:31Z)
From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities [111.44485171421535]
本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
論文参考訳（メタデータ） (2024-01-26T18:53:03Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-29T08:46:38Z)
Impact of Large Language Models on Generating Software Specifications [14.88090169737112]
大規模言語モデル(LLM)は多くのソフトウェア工学のタスクにうまく適用されている。ソフトウェアコメントやドキュメントからソフトウェア仕様を生成するLLMの機能を評価する。
論文参考訳（メタデータ） (2023-06-06T00:28:39Z)
On the Tool Manipulation Capability of Open-source Large Language Models [19.6917640220883]
オープンソース LLM を強化して,ツール操作においてクローズド LLM API をリードする上での競争力を示すことができることを示す。当社の技術は,オープンソースLLMを最大90%の成功率で向上させ,8つのツールベンチタスクのうち4つでOpenAI GPT-4と競合する能力を示す。
論文参考訳（メタデータ） (2023-05-25T22:10:20Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。