Fugu-MT 論文翻訳(概要): Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning

論文の概要: Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning

arxiv url: http://arxiv.org/abs/2404.13082v2
Date: Tue, 19 Nov 2024 22:02:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.958117
Title: Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning
Title（参考訳）: 予算制約型政策学習による効率的なLLMカスケード
Authors: Xuechen Zhang, Zijian Huang, Ege Onur Taga, Carlee Joe-Wong, Samet Oymak, Jiasi Chen,
Abstract要約: TREACLEは、ユーザの金銭的コストとレイテンシの制約を尊重しながら、モデルとプロンプトスキームを共同で選択する強化学習ポリシーである。評価の結果,TREACLEはベースラインに比べて最大85%のコスト削減が可能であり,精度は高いことがわかった。
参考スコア（独自算出の注目度）: 31.972053219549757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent successes in natural language processing have led to the proliferation of large language models (LLMs) by multiple providers. Each LLM offering has different inference accuracy, monetary cost, and latency, and their accuracy further depends on the exact wording of the question (i.e., the specific prompt). At the same time, users often have a limit on monetary budget and latency to answer all their questions, and they do not know which LLMs to choose for each question to meet their accuracy and long term budget requirements. To navigate this rich design space, we propose TREACLE ($\underline{T}$hrifty $\underline{Rea}$soning via $\underline{C}$ontext-Aware $\underline{L}$LM and Prompt S$\underline{e}$lection), a reinforcement learning policy that jointly selects the model and prompting scheme while respecting the user's monetary cost and latency constraints. TREACLE uses the problem context, including question text embeddings (reflecting the type or difficulty of a query) and the response history (reflecting the consistency of previous responses) to make smart decisions. Our evaluations on standard reasoning datasets (GSM8K, CSQA, and LLC) with various LLMs and prompts show that TREACLE enables cost savings of up to 85% compared to baselines, while maintaining high accuracy. Importantly, it provides the user with the ability to gracefully trade off accuracy for cost.
Abstract（参考訳）: 近年の自然言語処理の成功は、複数のプロバイダによる大規模言語モデル(LLM)の増大につながっている。それぞれのLSM提供物は推論精度、金銭的コスト、レイテンシが異なり、その正確さは質問の正確な単語(すなわち特定のプロンプト)に依存する。同時に、ユーザは全ての質問に答えるために金銭的な予算とレイテンシに制限があることが多く、どのLSMがそれぞれの質問を選択して、正確で長期的な予算要件を満たすかを知らない。このリッチなデザイン空間をナビゲートするために、TREACLE$\underline{T}$hrifty$\underline{Rea}$soning via $\underline{C}$ontext-Aware $\underline{L}$LM and Prompt S$\underline{e}$lectionという強化学習ポリシーを提案する。 TREACLEは、質問テキストの埋め込み(クエリのタイプや難易度を反映する)や応答履歴(以前のレスポンスの一貫性を反映する)などの問題コンテキストを使用して、スマートな判断を行う。各種LCMを用いた標準推論データセット(GSM8K,CSQA, LLC)の評価により,TREACLEはベースラインに比べて最大85%のコスト削減が可能であり,精度は高い。重要なのは、ユーザに対して、コストの正確さを優雅にトレードオフする機能を提供することだ。

関連論文リスト

MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-11-08T05:54:05Z)
Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。 LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文参考訳（メタデータ） (2024-10-30T17:02:54Z)
MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [20.793892860721712]
MetaLLMは,各クエリを最適大言語モデル(LLM)に動的かつインテリジェントにルーティングするフレームワークである。多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 OpenAI や Together AI などの一般的な LLM プラットフォーム上で実施した実験では,現実世界のシナリオにおいて MetaLLM の有効性を示す。
論文参考訳（メタデータ） (2024-07-15T15:45:07Z)
Cost-efficient Knowledge-based Question Answering with Large Language Models [28.816821631082856]
知識に基づく質問応答(KBQA)は、ドメイン知識を必要とする多くのシナリオで広く使われている。大規模言語モデル(LLM)はKBQAに機会をもたらすが、そのコストは著しく高く、事前トレーニング中にドメイン固有の知識が欠如している。我々は,KBQA と LLM のコスト効率を向上する新しい戦略である Coke を提案する。
論文参考訳（メタデータ） (2024-05-27T16:37:34Z)
Cost-Effective Online Multi-LLM Selection with Versatile Reward Models [30.892090566736652]
大規模言語モデル (LLM) を選択・使用するためのオンラインモデルである textitC2MAB-V を導入する。 textitC2MAB-Vは、様々な報酬モデルを持つ様々な協調タスクタイプに特化している。 textitC2MAB-Vは,3つのアプリケーションシナリオに対して,性能とコスト効率を9つのLLMと効果的にバランスさせることを示す。
論文参考訳（メタデータ） (2024-05-26T14:38:24Z)
OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。 OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文参考訳（メタデータ） (2024-05-24T01:05:37Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。 LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文参考訳（メタデータ） (2024-04-11T17:57:22Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-23T16:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。