Fugu-MT 論文翻訳(概要): Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models

論文の概要: Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models

arxiv url: http://arxiv.org/abs/2310.13395v1
Date: Fri, 20 Oct 2023 10:05:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 23:27:43.037248
Title: Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models
Title（参考訳）: 可能ならキャッシュする:大規模言語モデルへの呼び出しを減らすオンラインコスト対応の教師学習フレームワーク
Authors: Ilias Stogiannidis, Stavros Vassos, Prodromos Malakasiotis, Ion Androutsopoulos
Abstract要約: 中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
参考スコア（独自算出の注目度）: 13.799197575126442
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Prompting Large Language Models (LLMs) performs impressively in zero- and few-shot settings. Hence, small and medium-sized enterprises (SMEs) that cannot afford the cost of creating large task-specific training datasets, but also the cost of pretraining their own LLMs, are increasingly turning to third-party services that allow them to prompt LLMs. However, such services currently require a payment per call, which becomes a significant operating expense (OpEx). Furthermore, customer inputs are often very similar over time, hence SMEs end-up prompting LLMs with very similar instances. We propose a framework that allows reducing the calls to LLMs by caching previous LLM responses and using them to train a local inexpensive model on the SME side. The framework includes criteria for deciding when to trust the local model or call the LLM, and a methodology to tune the criteria and measure the tradeoff between performance and cost. For experimental purposes, we instantiate our framework with two LLMs, GPT-3.5 or GPT-4, and two inexpensive students, a k-NN classifier or a Multi-Layer Perceptron, using two common business tasks, intent recognition and sentiment analysis. Experimental results indicate that significant OpEx savings can be obtained with only slightly lower performance.
Abstract（参考訳）: Prompting Large Language Models (LLMs) はゼロショットと少数ショットの設定で素晴らしいパフォーマンスを発揮する。そのため、大規模なタスク固有のトレーニングデータセットを作成するコストがかからない中小企業(中小企業)や、独自のLCMを事前訓練するコストも、LDMを推進できるサードパーティサービスへと変化しつつある。しかし、これらのサービスは現在、通話当たりの支払いを必要としており、これは大きな運用コスト(opex)となる。さらに、顧客入力は時間とともに非常によく似ているため、中小企業はLLMを非常によく似たインスタンスで呼び出す。本稿では,従来のLCM応答をキャッシュし,それを用いて,中小企業側でローカルな安価なモデルを訓練することにより,LCMへの呼び出しを削減できるフレームワークを提案する。フレームワークには、いつローカルモデルを信頼するか、LCMを呼び出すかを決める基準と、その基準を調整し、パフォーマンスとコストのトレードオフを測定する方法論が含まれている。実験的な目的のために,2つのLLM(GPT-3.5またはGPT-4)と2つの安価な学生(k-NN分類器またはMulti-Layer Perceptron)でフレームワークをインスタンス化する。実験結果から,OpExの大幅な節約はわずかに低い性能で達成できることが示唆された。

関連論文リスト

Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [21.689490112983677]
分類タスクに最適な大言語モデル(LLM)に各クエリを動的にルーティングするフレームワークであるMetaLLMを紹介する。多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 LLMプラットフォーム上で実施した本実験では,メタLLMの有効性を実世界のシナリオで示す。
論文参考訳（メタデータ） (2024-07-15T15:45:07Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文参考訳（メタデータ） (2023-10-04T18:21:17Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance [36.94826820536239]
一般的な大言語モデル(LLM)のクエリに関するコストについてレビューする。 LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略について論じる。実験の結果,FrugalGPTは最大98%のコスト削減や,同じコストでGPT-4の精度を4%向上できることがわかった。
論文参考訳（メタデータ） (2023-05-09T05:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。