Fugu-MT 論文翻訳(概要): Cost-Saving LLM Cascades with Early Abstention

論文の概要: Cost-Saving LLM Cascades with Early Abstention

arxiv url: http://arxiv.org/abs/2502.09054v1
Date: Thu, 13 Feb 2025 08:08:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.153414
Title: Cost-Saving LLM Cascades with Early Abstention
Title（参考訳）: 早期留置型LCMカスケードの省コスト化
Authors: Michael J. Zellinger, Rex Liu, Matt Thomson,
Abstract要約: LLMカスケードにおける「早期禁忌」の利点について検討した。 6つのベンチマークで,テスト全体の損失を平均2.2%削減できることがわかった。
参考スコア（独自算出の注目度）: 1.3108652488669732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM cascades are based on the idea that processing all queries with the largest and most expensive LLMs is inefficient. Instead, cascades deploy small LLMs to answer the majority of queries, limiting the use of large and expensive LLMs to only the most difficult queries. This approach can significantly reduce costs without impacting performance. However, risk-sensitive domains such as finance or medicine place an additional premium on avoiding model errors. Recognizing that even the most expensive models may make mistakes, applications in these domains benefit from allowing LLM systems to completely abstain from answering a query when the chance of making a mistake is significant. However, giving a cascade the ability to abstain poses an immediate design question for LLM cascades: should abstention only be allowed at the final model or also at earlier models? Since the error patterns of small and large models are correlated, the latter strategy may further reduce inference costs by letting inexpensive models anticipate abstention decisions by expensive models, thereby obviating the need to run the expensive models. We investigate the benefits of "early abstention" in LLM cascades and find that it reduces the overall test loss by 2.2% on average across six benchmarks (GSM8K, MedMCQA, MMLU, TriviaQA, TruthfulQA, and XSum). These gains result from a more effective use of abstention, which trades a 4.1% average increase in the overall abstention rate for a 13.0% reduction in cost and a 5.0% reduction in error rate. Our findings demonstrate that it is possible to leverage correlations between the error patterns of different language models to drive performance improvements for LLM systems with abstention.
Abstract（参考訳）: LLMカスケードは、全てのクエリを最大かつ最も高価なLCMで処理することは非効率であるという考えに基づいている。代わりに、カスケードはクエリの大部分に答えるために小さなLLMをデプロイし、大規模で高価なLLMの使用を最も難しいクエリに限定する。このアプローチは、パフォーマンスに影響を与えることなく、コストを大幅に削減できます。しかし、金融や医療といったリスクに敏感なドメインは、モデルエラーを避けるために追加のプレミアムを提供する。最も高価なモデルでさえミスを犯す可能性があることに気付くと、これらのドメインのアプリケーションは、ミスを犯す可能性がある場合、LLMシステムがクエリーに完全に答えることを完全に禁じることの恩恵を受ける。しかし、カスケードにLCMカスケードの即時設計上の疑問を提起する能力を与える: 棄権は最終モデルやそれ以前のモデルでのみ許すべきか? 小型モデルと大規模モデルのエラーパターンが相関しているため、後者の戦略は、安価なモデルが高価なモデルによる禁断決定を予測できるようにし、高価なモデルを実行する必要をなくすことにより、推論コストをさらに削減することができる。 LLMのカスケードにおける「早期停止」の利点について検討し、GSM8K, MedMCQA, MMLU, TriviaQA, TruthfulQA, XSumの6ベンチマークにおいて、テスト全体の損失を平均2.2%削減することを発見した。これらの利得は、13.0%のコストと5.0%のエラー率で、全体としての禁制率の4.1%の平均的な上昇と引き換えに、より効果的な禁制の使用によって生じる。この結果から,異なる言語モデルの誤りパターン間の相関を利用して,留意点のあるLLMシステムの性能向上を図ることが可能であることが示唆された。

関連論文リスト

Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
Not only a helper, but also a teacher: Interactive LLM Cascade [10.510796354302421]
大きな言語モデル(LLM)はその能力で大きく異なり、より大きなモデルは性能が良く、コストも高い。 LLMs Cascadeは弱い/チープから強い/拡張的なモデルへの難しいクエリをデファクトする。 Inter-Cascadeは、バックアップヘルパーから長期の教師まで、強力なモデルの役割を拡大します。
論文参考訳（メタデータ） (2025-09-26T22:35:00Z)
Economic Evaluation of LLMs [0.9208007322096532]
我々は、誤りの経済的コストが0.01ドルを超えると、推論モデルがより正確でコストのかかるトレードオフをもたらすことを示した。誤りを犯すコストが0.1ドルという場合,大きなLLMがカスケードを上回っていることが判明した。
論文参考訳（メタデータ） (2025-07-04T23:16:02Z)
HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving [5.698111842478072]
初期のLLMは、後のモデルレイヤをスキップすることで、このトレードオフ空間を効率的にナビゲートします。現在のフレームワークでは、ユーザタスクのモデルが静的に選択され、入力クエリの性質の変化に適応する能力が制限されます。まず、HELIOSショートリストは、候補LLMの集合をリストし、プロンプトのサブセットを用いて評価し、テレメトリデータをリアルタイムで収集する。第2に、HELIOSはこれらの評価から得られた早期出口データを使用して、選択したモデルを限られた数の層に限定的にロードする。
論文参考訳（メタデータ） (2025-04-14T21:30:43Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。ベイズ最適化を用いた信頼しきい値の選択と比較すると、マルコフパラメトリックコプラモデルの方がエラーコストのトレードオフに有利である。異なるLLMの誤差率間の相互作用に関する我々のフレームワークの帰納的仮定は、サンプル効率を高める。
論文参考訳（メタデータ） (2025-01-16T07:58:33Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Efficient Hybrid Inference for LLMs: Reward-Based Token Modelling with Selective Cloud Assistance [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける例外的な性能で知られている。より小型の言語モデル(SLM)は、より低価格のエッジデバイスにデプロイできるが、より大きなデバイスの性能に匹敵する。本稿では,両モデルの強みを生かした新しいハイブリッド推論手法を提案する。
論文参考訳（メタデータ） (2024-09-15T15:12:45Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Cache me if you Can: an Online Cost-aware Teacher-Student framework to Reduce the Calls to Large Language Models [13.799197575126442]
中小企業(中小企業)は、大規模なタスク固有のトレーニングデータセットを作成する費用を支払うことができない。大規模言語モデルをプロンプトできるサードパーティサービスは、現在、通話1回あたりの支払いを必要としている。本稿では,従来の応答をキャッシュし,ローカルな安価なモデルをトレーニングすることで,LCMへの呼び出しを削減できるフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T10:05:07Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文参考訳（メタデータ） (2023-10-04T18:21:17Z)
FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance [36.94826820536239]
一般的な大言語モデル(LLM)のクエリに関するコストについてレビューする。 LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略について論じる。実験の結果,FrugalGPTは最大98%のコスト削減や,同じコストでGPT-4の精度を4%向上できることがわかった。
論文参考訳（メタデータ） (2023-05-09T05:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。