論文の概要: TREACLE: Thrifty Reasoning via Context-Aware LLM and Prompt Selection
- arxiv url: http://arxiv.org/abs/2404.13082v1
- Date: Wed, 17 Apr 2024 05:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 20:28:09.505600
- Title: TREACLE: Thrifty Reasoning via Context-Aware LLM and Prompt Selection
- Title(参考訳): TREACLE: 文脈認識LDMとプロンプト選択による遠心推論
- Authors: Xuechen Zhang, Zijian Huang, Ege Onur Taga, Carlee Joe-Wong, Samet Oymak, Jiasi Chen,
- Abstract要約: 我々は,ユーザの金銭的コストとレイテンシの制約を尊重しながら,モデルとプロンプトを共同で選択する強化学習ポリシーであるTREACLEを提案する。
評価の結果,TREACLEは高い精度を維持しながら,ベースラインに比べて最大85%のコスト削減が可能であった。
- 参考スコア(独自算出の注目度): 31.972053219549757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent successes in natural language processing have led to the proliferation of large language models (LLMs) by multiple providers. Each LLM offering has different inference accuracy, monetary cost, and latency, and their accuracy further depends on the exact wording of the question (i.e., the specific prompt). At the same time, users often have a limit on monetary budget and latency to answer all their questions, and they do not know which LLMs to choose for each question to meet their accuracy and long-term budget requirements. To navigate this rich design space, we propose TREACLE (Thrifty Reasoning via Context-Aware LLM and Prompt Selection), a reinforcement learning policy that jointly selects the model and prompting scheme while respecting the user's monetary cost and latency constraints. TREACLE uses the problem context, including question text embeddings (reflecting the type or difficulty of a query) and the response history (reflecting the consistency of previous responses) to make smart decisions. Our evaluations on standard reasoning datasets (GSM8K, CSQA, and LLC ) with various LLMs and prompts show that TREACLE enables cost savings of up to 85% compared to baselines while maintaining high accuracy. Importantly, it provides the user with the ability to gracefully trade off accuracy for cost.
- Abstract(参考訳): 近年の自然言語処理の成功は、複数のプロバイダによる大規模言語モデル(LLM)の増大につながっている。
それぞれのLSM提供物は推論精度、金銭的コスト、レイテンシが異なり、その正確さは質問の正確な単語(すなわち特定のプロンプト)に依存する。
同時に、ユーザはすべての質問に答えるために金銭的な予算とレイテンシに制限があることが多く、どのLSMがそれぞれの質問を選択して、正確で長期的な予算要件を満たすかを知らない。
このリッチなデザイン空間をナビゲートするために,ユーザの金銭的コストと遅延制約を尊重しながらモデルを共同で選択・促進する強化学習政策であるTREACLE(Thrifty Reasoning via Context-Aware LLM and Prompt Selection)を提案する。
TREACLEは、質問テキストの埋め込み(クエリのタイプや難易度を反映する)や応答履歴(以前のレスポンスの一貫性を反映する)などの問題コンテキストを使用して、スマートな判断を行う。
各種LCMを用いた標準推論データセット(GSM8K, CSQA, LLC)について評価した結果, TREACLEは高い精度を維持しつつ, ベースラインに比べて最大85%のコスト削減が可能であることが示唆された。
重要なのは、ユーザに対して、コストの正確さを優雅にトレードオフする機能を提供することだ。
関連論文リスト
- SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Cost-Effective In-Context Learning for Entity Resolution: A Design Space
Exploration [26.65259285701739]
本稿では,ERに対する費用対効果のあるバッチプロンプト手法の開発方法について,総合的研究を行う。
PLMに基づく手法と比較して,バッチプロンプトはERにとって非常に費用対効果が高いことが判明した。
また,マッチング精度と金銭的コストのバランスを効果的に整えるための包括的実証選択戦略も考案した。
論文 参考訳(メタデータ) (2023-12-07T02:09:27Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - EcoAssistant: Using LLM Assistant More Affordably and Accurately [36.29735258966917]
EcoAssistantというフレームワークをコントリビュートすることで,大規模言語モデルによるコード駆動クエリの応答を,より安価かつ正確に行えるようにします。
まず、LLMアシスタントが自動コード実行器と会話することで、コードを反復的に洗練したり、実行結果に基づいて回答を生成できる。
第二に、LLMアシスタントの階層を使い、より弱く安価なLCMでクエリに答えようとする。
論文 参考訳(メタデータ) (2023-10-03T22:16:13Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:35:16Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - P-Adapters: Robustly Extracting Factual Information from Language Models
with Diverse Prompts [7.657992756210283]
埋め込み層と大規模言語モデルの第一の注意層の間に位置する軽量モデルであるP-Adaptersを紹介します。
LLMの埋め込みを入力とし、LLMに問い合わせるのに使用される連続的なプロンプトを出力する。
それらは、一貫性の12~26%の絶対的な改善と、自然言語クエリのみを使用するベースラインよりも36~50%の精度の絶対的な改善を示す。
論文 参考訳(メタデータ) (2021-10-14T11:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。