論文の概要: Batch Prompting: Efficient Inference with Large Language Model APIs
- arxiv url: http://arxiv.org/abs/2301.08721v1
- Date: Thu, 19 Jan 2023 02:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 12:44:07.043021
- Title: Batch Prompting: Efficient Inference with Large Language Model APIs
- Title(参考訳): Batch Prompting: 大規模言語モデルAPIによる効率的な推論
- Authors: Zhoujun Cheng, Jungo Kasai, Tao Yu
- Abstract要約: 1回に1つのサンプルではなく、バッチで推論を実行するバッチプロンプトを提案する。
数ショットのコンテキスト内学習環境では、推論コストは各バッチのサンプル数とともにほぼ線形に減少する。
バッチプロンプトの有効性を,コモンセンスQA,算術的推論,NLI/NLUで検証した。
- 参考スコア(独自算出の注目度): 16.618088224636534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performing inference on hundreds of thousands of samples with large language
models (LLMs) can be computationally and financially costly. We propose batch
prompting, a simple alternative prompting approach that enables the LLM to run
inference in batches, instead of one sample at a time. Our method reduces both
token and time costs while retaining downstream performance. We theoretically
demonstrate that under a few-shot in-context learning setting, the inference
costs decrease almost inverse linearly with the number of samples in each
batch. We extensively validate the effectiveness of batch prompting on ten
datasets across commonsense QA, arithmetic reasoning, and NLI/NLU: batch
prompting significantly~(up to $5\times$ with six samples in batch) reduces the
LLM (Codex) inference token and time costs while achieving better or comparable
performance. Our analysis shows that the number of samples in each batch and
the complexity of tasks affect its performance. Further, batch prompting can be
applied across different LLMs and reasoning methods.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた数十万のサンプルに対する推論は、計算的かつ経済的にコストがかかる可能性がある。
我々は,LLMが一度に1つのサンプルではなく,バッチで推論を実行できるようにする,シンプルな代替プロンプト手法であるバッチプロンプトを提案する。
ダウンストリーム性能を維持しながらトークンと時間の両方のコストを削減する。
理論的には、数ショットのコンテキスト内学習環境では、各バッチのサンプル数とともに、推論コストはほぼ線形に減少する。
バッチプロンプトが大幅に~(最大$5\times$で6つのサンプルをバッチ化する)ことにより、LLM(Codex)推論トークンと時間コストが削減され、より良い性能や同等のパフォーマンスが達成できる。
分析の結果,各バッチ内のサンプル数とタスクの複雑さは,その性能に影響することがわかった。
さらに、バッチプロンプトは異なるLLMおよび推論方法に適用できる。
関連論文リスト
- Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - Auto-Demo Prompting: Leveraging Generated Outputs as Demonstrations for Enhanced Batch Prompting [0.8238423959893132]
自動デモ(Auto-Demo Prompting)は、初期質問からの問合せペアを、その後の回答推論の実証としてバッチ内で活用する、新しいアプローチである。
本手法は,バッチプロンプトと少数ショットプロンプトのギャップを効果的に埋め,トークン使用率のわずかな妥協だけで性能を向上する。
論文 参考訳(メタデータ) (2024-10-02T16:34:40Z) - Efficient multi-prompt evaluation of LLMs [36.46258631685666]
PromptEvalは,多数のプロンプトに対して性能を推定する手法である。
PromptEvalは一貫して性能分布を推定し,その有効性を実証的に証明する。
本稿では,LLM-as-a-judgeにおいてPromptEvalが有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T14:24:47Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。