論文の概要: Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning
- arxiv url: http://arxiv.org/abs/2404.13082v2
- Date: Tue, 19 Nov 2024 22:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:17.432706
- Title: Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning
- Title(参考訳): 予算制約型政策学習による効率的なLLMカスケード
- Authors: Xuechen Zhang, Zijian Huang, Ege Onur Taga, Carlee Joe-Wong, Samet Oymak, Jiasi Chen,
- Abstract要約: TREACLEは、ユーザの金銭的コストとレイテンシの制約を尊重しながら、モデルとプロンプトスキームを共同で選択する強化学習ポリシーである。
評価の結果,TREACLEはベースラインに比べて最大85%のコスト削減が可能であり,精度は高いことがわかった。
- 参考スコア(独自算出の注目度): 31.972053219549757
- License:
- Abstract: Recent successes in natural language processing have led to the proliferation of large language models (LLMs) by multiple providers. Each LLM offering has different inference accuracy, monetary cost, and latency, and their accuracy further depends on the exact wording of the question (i.e., the specific prompt). At the same time, users often have a limit on monetary budget and latency to answer all their questions, and they do not know which LLMs to choose for each question to meet their accuracy and long term budget requirements. To navigate this rich design space, we propose TREACLE ($\underline{T}$hrifty $\underline{Rea}$soning via $\underline{C}$ontext-Aware $\underline{L}$LM and Prompt S$\underline{e}$lection), a reinforcement learning policy that jointly selects the model and prompting scheme while respecting the user's monetary cost and latency constraints. TREACLE uses the problem context, including question text embeddings (reflecting the type or difficulty of a query) and the response history (reflecting the consistency of previous responses) to make smart decisions. Our evaluations on standard reasoning datasets (GSM8K, CSQA, and LLC) with various LLMs and prompts show that TREACLE enables cost savings of up to 85% compared to baselines, while maintaining high accuracy. Importantly, it provides the user with the ability to gracefully trade off accuracy for cost.
- Abstract(参考訳): 近年の自然言語処理の成功は、複数のプロバイダによる大規模言語モデル(LLM)の増大につながっている。
それぞれのLSM提供物は推論精度、金銭的コスト、レイテンシが異なり、その正確さは質問の正確な単語(すなわち特定のプロンプト)に依存する。
同時に、ユーザは全ての質問に答えるために金銭的な予算とレイテンシに制限があることが多く、どのLSMがそれぞれの質問を選択して、正確で長期的な予算要件を満たすかを知らない。
このリッチなデザイン空間をナビゲートするために、TREACLE$\underline{T}$hrifty$\underline{Rea}$soning via $\underline{C}$ontext-Aware $\underline{L}$LM and Prompt S$\underline{e}$lectionという強化学習ポリシーを提案する。
TREACLEは、質問テキストの埋め込み(クエリのタイプや難易度を反映する)や応答履歴(以前のレスポンスの一貫性を反映する)などの問題コンテキストを使用して、スマートな判断を行う。
各種LCMを用いた標準推論データセット(GSM8K,CSQA, LLC)の評価により,TREACLEはベースラインに比べて最大85%のコスト削減が可能であり,精度は高い。
重要なのは、ユーザに対して、コストの正確さを優雅にトレードオフする機能を提供することだ。
関連論文リスト
- Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Cost-efficient Knowledge-based Question Answering with Large Language Models [28.816821631082856]
知識に基づく質問応答(KBQA)は、ドメイン知識を必要とする多くのシナリオで広く使われている。
大規模言語モデル(LLM)はKBQAに機会をもたらすが、そのコストは著しく高く、事前トレーニング中にドメイン固有の知識が欠如している。
我々は,KBQA と LLM のコスト効率を向上する新しい戦略である Coke を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:37:34Z) - OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。
当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。
OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-05-24T01:05:37Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。