論文の概要: Batch Prompting: Efficient Inference with Large Language Model APIs
- arxiv url: http://arxiv.org/abs/2301.08721v2
- Date: Tue, 24 Oct 2023 07:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 03:19:08.585520
- Title: Batch Prompting: Efficient Inference with Large Language Model APIs
- Title(参考訳): Batch Prompting: 大規模言語モデルAPIによる効率的な推論
- Authors: Zhoujun Cheng, Jungo Kasai, Tao Yu
- Abstract要約: 大規模言語モデル(LLM)を用いた大量のサンプルに対する推論は、計算的かつ経済的にコストがかかる可能性がある。
我々は,LLMがバッチで推論を実行できるようにする,シンプルで効果的なプロンプト手法であるバッチプロンプトを提案する。
バッチプロンプトの有効性を,コモンセンスQA,算術的推論,NLI/NLUで検証した。
- 参考スコア(独自算出の注目度): 37.70875323133654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performing inference on large volumes of samples with large language models
(LLMs) can be computationally and financially costly in industry and real-world
use. We propose batch prompting, a simple yet effective prompting approach that
enables the LLM to run inference in batches, instead of one sample at a time.
Our method reduces both token and time costs while retaining downstream
performance. We theoretically demonstrate that under a few-shot in-context
learning setting, the inference costs decrease almost inverse linearly with the
number of samples in each batch. We extensively validate the effectiveness of
batch prompting on ten datasets across commonsense QA, arithmetic reasoning,
and NLI/NLU: batch prompting significantly~(up to 5x with six samples in batch)
reduces the LLM (Codex) inference token and time costs while achieving better
or comparable performance. For state-of-the-art Chat-based LLMs, e.g., GPT-3.5
and GPT-4, we show the benefits of batch prompting also hold. Further analysis
shows that the number of samples in each batch and the complexity of tasks
affect its performance. Moreover, batch prompting can be applied across
different reasoning methods using LLMs. Our code can be found at the site
https://github.com/xlang-ai/batch-prompting.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた大量のサンプルに対する推論は、産業や実世界の利用において計算的かつ経済的にコストがかかる可能性がある。
我々は,LLMが1回に1つのサンプルではなく,バッチで推論を実行できるようにする,シンプルで効果的なプロンプト手法であるバッチプロンプトを提案する。
ダウンストリーム性能を維持しながらトークンと時間の両方のコストを削減する。
理論的には、数ショットのコンテキスト内学習環境では、各バッチのサンプル数とともに、推論コストはほぼ線形に減少する。
バッチプロンプトが著しく~(最大で6つのサンプルで5倍)、LLM(Codex)推論トークンと時間コストが削減され、性能が向上または同等になる。
GPT-3.5 や GPT-4 のような最先端の Chat ベースの LLM では、バッチプロンプトの利点も保たれている。
さらに分析した結果、各バッチ内のサンプル数とタスクの複雑さがパフォーマンスに影響することがわかった。
さらに、バッチプロンプトはLLMを用いて異なる推論方法に適用できる。
私たちのコードはhttps://github.com/xlang-ai/batch-promptingのサイトにある。
関連論文リスト
- Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - Auto-Demo Prompting: Leveraging Generated Outputs as Demonstrations for Enhanced Batch Prompting [0.8238423959893132]
自動デモ(Auto-Demo Prompting)は、初期質問からの問合せペアを、その後の回答推論の実証としてバッチ内で活用する、新しいアプローチである。
本手法は,バッチプロンプトと少数ショットプロンプトのギャップを効果的に埋め,トークン使用率のわずかな妥協だけで性能を向上する。
論文 参考訳(メタデータ) (2024-10-02T16:34:40Z) - Efficient multi-prompt evaluation of LLMs [36.46258631685666]
PromptEvalは,多数のプロンプトに対して性能を推定する手法である。
PromptEvalは一貫して性能分布を推定し,その有効性を実証的に証明する。
本稿では,LLM-as-a-judgeにおいてPromptEvalが有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T14:24:47Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。