論文の概要: Cost-Saving LLM Cascades with Early Abstention
- arxiv url: http://arxiv.org/abs/2502.09054v2
- Date: Sat, 29 Mar 2025 01:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:30:00.220608
- Title: Cost-Saving LLM Cascades with Early Abstention
- Title(参考訳): 早期留置型LCMカスケードの省コスト化
- Authors: Michael J. Zellinger, Rex Liu, Matt Thomson,
- Abstract要約: LLMカスケードにおける「早期禁忌」の利点について検討した。
6つのベンチマークで,テスト全体の損失を平均2.2%削減できることがわかった。
これらの利得は、より効果的な禁制の使用、総禁制率の4.1%の平均的な増加、コストの13.0%の削減、エラー率の5.0%の削減によって生じる。
- 参考スコア(独自算出の注目度): 1.3108652488669732
- License:
- Abstract: LLM cascades deploy small LLMs to answer most queries, limiting the use of large and expensive LLMs to difficult queries. This approach can significantly reduce costs without impacting performance. However, risk-sensitive domains such as finance or medicine place an additional premium on avoiding model errors. Since even the most expensive models are susceptible to making mistakes, applications in these domains benefit from allowing LLM systems to completely abstain from answering difficult queries. Introducing abstention poses a design question for LLM cascades: should abstention only be allowed at the final model or also at earlier models? Since the error patterns of small and large models are correlated, allowing earlier models to abstain may reduce inference costs and latency by anticipating abstention decisions by expensive and slow models, thus avoiding the need to run these models. We investigate the benefits of such "early abstention" in LLM cascades and find that it reduces overall test loss by 2.2% on average across six benchmarks (GSM8K, MedMCQA, MMLU, TriviaQA, TruthfulQA, and XSum). These gains result from a more effective use of abstention, trading a 4.1% average increase in the overall abstention rate for a 13.0% reduction in cost and a 5.0% reduction in error rate. Our findings demonstrate the possibility of leveraging correlations between the error patterns of different language models to drive performance improvements for LLM systems with abstention.
- Abstract(参考訳): LLM カスケードは、ほとんどのクエリに答えるために小さな LLM をデプロイし、大規模で高価な LLM の使用を難しいクエリに制限する。
このアプローチは、パフォーマンスに影響を与えることなく、コストを大幅に削減できます。
しかし、金融や医療といったリスクに敏感なドメインは、モデルエラーを避けるために追加のプレミアムを課す。
最も高価なモデルでさえミスを犯すおそれがあるため、これらのドメインのアプリケーションは、LLMシステムが難しいクエリに完全に答えることを完全に禁じることの恩恵を受ける。
棄権は最終モデルやそれ以前のモデルでのみ許されるべきか?
小型モデルと大規模モデルのエラーパターンは相関しているため、従来のモデルでは、高価なモデルと遅いモデルによる禁忌決定を予測することで、推論コストと遅延を低減できるため、これらのモデルを実行する必要がなくなる。
LLMカスケードにおけるこのような「早期停止」の利点について検討し、GSM8K, MedMCQA, MMLU, TriviaQA, TruthfulQA, XSumの6ベンチマークにおいて、テスト全体の損失を平均2.2%削減することを発見した。
これらの利得は、より効果的な禁制の使用、総禁制率の4.1%の平均的な増加、コストの13.0%の削減、エラー率の5.0%の削減によって生じる。
本研究は,異なる言語モデルの誤りパターン間の相関を利用して,留意点のあるLLMシステムの性能向上を図る可能性を示した。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。
より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。
本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文 参考訳(メタデータ) (2024-09-15T15:12:45Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。
当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。
OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-05-24T01:05:37Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。
本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。
提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文 参考訳(メタデータ) (2023-10-04T18:21:17Z) - FrugalGPT: How to Use Large Language Models While Reducing Cost and
Improving Performance [36.94826820536239]
一般的な大言語モデル(LLM)のクエリに関するコストについてレビューする。
LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略について論じる。
実験の結果,FrugalGPTは最大98%のコスト削減や,同じコストでGPT-4の精度を4%向上できることがわかった。
論文 参考訳(メタデータ) (2023-05-09T05:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。