論文の概要: FrugalGPT: How to Use Large Language Models While Reducing Cost and
Improving Performance
- arxiv url: http://arxiv.org/abs/2305.05176v1
- Date: Tue, 9 May 2023 05:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:44:16.146908
- Title: FrugalGPT: How to Use Large Language Models While Reducing Cost and
Improving Performance
- Title(参考訳): FrugalGPT: コスト削減とパフォーマンス向上を両立させた大規模言語モデルの利用方法
- Authors: Lingjiao Chen and Matei Zaharia and James Zou
- Abstract要約: 一般的な大言語モデル(LLM)のクエリに関するコストについてレビューする。
LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略について論じる。
実験の結果,FrugalGPTは最大98%のコスト削減や,同じコストでGPT-4の精度を4%向上できることがわかった。
- 参考スコア(独自算出の注目度): 36.94826820536239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a rapidly growing number of large language models (LLMs) that users
can query for a fee. We review the cost associated with querying popular LLM
APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have
heterogeneous pricing structures, with fees that can differ by two orders of
magnitude. In particular, using LLMs on large collections of queries and text
can be expensive. Motivated by this, we outline and discuss three types of
strategies that users can exploit to reduce the inference cost associated with
using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As
an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM
cascade which learns which combinations of LLMs to use for different queries in
order to reduce cost and improve accuracy. Our experiments show that FrugalGPT
can match the performance of the best individual LLM (e.g. GPT-4) with up to
98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost.
The ideas and findings presented here lay a foundation for using LLMs
sustainably and efficiently.
- Abstract(参考訳): ユーザが料金を請求できる大規模言語モデル(llm)は急速に増えている。
GPT-4, ChatGPT, J1-Jumbo などの一般的な LLM API の問い合わせに伴うコストを概観し,これらのモデルが2桁の料金で異質な価格構造を持つことを見出した。
特に、大量のクエリとテキストのコレクションにllmを使用することは高価である。
そこで我々は,LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略の概要と議論を行った。
1)迅速な適応
2)llm近似、及び
3)LDMカスケード。
例えば、FrugalGPTは、LLMカスケードの単純かつ柔軟なインスタンス化であり、コスト削減と精度向上のために、異なるクエリに使用するLLMの組み合わせを学習する。
実験の結果,FrugalGPTは最高のLCM(例えばGPT-4)と最大98%のコスト削減を達成でき,同じコストでGPT-4の精度を4%向上できることがわかった。
ここで提示したアイデアと知見は,LLMを持続的かつ効率的に利用するための基礎を築いた。
関連論文リスト
- Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Cache me if you Can: an Online Cost-aware Teacher-Student framework to
Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。
大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。
本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T10:05:07Z) - Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。
本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。
提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文 参考訳(メタデータ) (2023-10-04T18:21:17Z) - EcoAssistant: Using LLM Assistant More Affordably and Accurately [36.29735258966917]
EcoAssistantというフレームワークをコントリビュートすることで,大規模言語モデルによるコード駆動クエリの応答を,より安価かつ正確に行えるようにします。
まず、LLMアシスタントが自動コード実行器と会話することで、コードを反復的に洗練したり、実行結果に基づいて回答を生成できる。
第二に、LLMアシスタントの階層を使い、より弱く安価なLCMでクエリに答えようとする。
論文 参考訳(メタデータ) (2023-10-03T22:16:13Z) - Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph [29.447300472617826]
Think-on-Graph (ToG)は、大規模言語モデル(LLM)における外部知識グラフ(KG)に対する新しいアプローチである。
ToGはKG上でビームサーチを繰り返し実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す。
ToGは、以前のSOTAが追加トレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。
論文 参考訳(メタデータ) (2023-07-15T03:31:38Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。