論文の概要: Towards Optimizing the Costs of LLM Usage
- arxiv url: http://arxiv.org/abs/2402.01742v1
- Date: Mon, 29 Jan 2024 16:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:02:32.031024
- Title: Towards Optimizing the Costs of LLM Usage
- Title(参考訳): LLM利用コストの最適化に向けて
- Authors: Shivanshu Shekhar, Tanishq Dubey, Koyel Mukherjee, Apoorv Saxena,
Atharv Tyagi, Nishanth Kotla
- Abstract要約: 理論的にも経験的にも、品質とコストを両立させる最適化問題について検討する。
トークンを品質に配慮した方法で低減するためのいくつかの決定論的手法を提案する。
本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
- 参考スコア(独自算出の注目度): 4.032848774697859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI and LLMs in particular are heavily used nowadays for various
document processing tasks such as question answering and summarization.
However, different LLMs come with different capabilities for different tasks as
well as with different costs, tokenization, and latency. In fact, enterprises
are already incurring huge costs of operating or using LLMs for their
respective use cases.
In this work, we propose optimizing the usage costs of LLMs by estimating
their output quality (without actually invoking the LLMs), and then solving an
optimization routine for the LLM selection to either keep costs under a budget,
or minimize the costs, in a quality and latency aware manner. We propose a
model to predict the output quality of LLMs on document processing tasks like
summarization, followed by an LP rounding algorithm to optimize the selection
of LLMs. We study optimization problems trading off the quality and costs, both
theoretically and empirically. We further propose a sentence simplification
model for reducing the number of tokens in a controlled manner. Additionally,
we propose several deterministic heuristics for reducing tokens in a quality
aware manner, and study the related optimization problem of applying the
heuristics optimizing the quality and cost trade-off. We perform extensive
empirical validation of our methods on not only enterprise datasets but also on
open-source datasets, annotated by us, and show that we perform much better
compared to closest baselines. Our methods reduce costs by 40%- 90% while
improving quality by 4%-7%. We will release the annotated open source datasets
to the community for further research and exploration.
- Abstract(参考訳): 特にジェネレーティブAIとLLMは、質問応答や要約といった様々な文書処理タスクに広く利用されている。
しかし、異なるLLMは異なるタスクと異なるコスト、トークン化、レイテンシの異なる機能を備えています。
実際、企業はそれぞれのユースケースに対して LLM の運用や使用に多大なコストをかけています。
そこで本研究では,llmの出力品質を推定する(実際にllmを呼び出すことなく)ことで,llmの利用コストを最適化し,コストを予算以下に保つか,あるいはコストを最小限に抑えるための最適化ルーチンを,品質とレイテンシを意識した方法で解くことを提案する。
要約などの文書処理タスクにおいてLLMの出力品質を予測するモデルを提案し,LLMの選択を最適化するためのLPラウンドリングアルゴリズムを提案する。
品質とコストを理論的にも実証的にもトレードオフする最適化問題について検討する。
さらに,制御された方法でトークン数を削減できる文単純化モデルを提案する。
さらに,トークンを品質意識的に削減するための決定論的ヒューリスティックスを提案し,品質とコストのトレードオフを最適化するヒューリスティックスを適用する際の関連する最適化問題について検討する。
私たちは、エンタープライズデータセットだけでなく、オープンソースデータセットでも、私たちのメソッドの広範な実証検証を行い、最も近いベースラインよりもずっと優れたパフォーマンスを示す。
本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
アノテーション付きのオープンソースデータセットをコミュニティにリリースし、さらなる調査と調査を行います。
関連論文リスト
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.70147007069824]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。
我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。
ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文 参考訳(メタデータ) (2024-02-16T09:06:06Z) - A Trade-off Analysis of Replacing Proprietary LLMs with Open Source SLMs
in Production [3.6101009633190575]
多くの企業は、OpenAIのGPT-4のようなマネージドAIモデルのAPIを使用して、製品内でAI対応エクスペリエンスを作成している。
同時に、商用で利用可能なオープンソースの小型言語モデル(SLM)が急増している。
論文 参考訳(メタデータ) (2023-12-20T19:27:59Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Towards Optimizing with Large Language Models [4.151658495779136]
各種タスクやデータサイズにまたがるLLMの最適化能力の評価を行う。
様々な視点からタスクパフォーマンスの総合評価を行うために,3つの異なる指標を紹介した。
論文 参考訳(メタデータ) (2023-10-08T15:35:00Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Impact of Large Language Models on Generating Software Specifications [14.88090169737112]
大規模言語モデル(LLM)は多くのソフトウェア工学のタスクにうまく適用されている。
ソフトウェアコメントやドキュメントからソフトウェア仕様を生成するLLMの機能を評価する。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。