論文の概要: Batch Prompting: Efficient Inference with Large Language Model APIs
- arxiv url: http://arxiv.org/abs/2301.08721v1
- Date: Thu, 19 Jan 2023 02:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 12:44:07.043021
- Title: Batch Prompting: Efficient Inference with Large Language Model APIs
- Title(参考訳): Batch Prompting: 大規模言語モデルAPIによる効率的な推論
- Authors: Zhoujun Cheng, Jungo Kasai, Tao Yu
- Abstract要約: 1回に1つのサンプルではなく、バッチで推論を実行するバッチプロンプトを提案する。
数ショットのコンテキスト内学習環境では、推論コストは各バッチのサンプル数とともにほぼ線形に減少する。
バッチプロンプトの有効性を,コモンセンスQA,算術的推論,NLI/NLUで検証した。
- 参考スコア(独自算出の注目度): 16.618088224636534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performing inference on hundreds of thousands of samples with large language
models (LLMs) can be computationally and financially costly. We propose batch
prompting, a simple alternative prompting approach that enables the LLM to run
inference in batches, instead of one sample at a time. Our method reduces both
token and time costs while retaining downstream performance. We theoretically
demonstrate that under a few-shot in-context learning setting, the inference
costs decrease almost inverse linearly with the number of samples in each
batch. We extensively validate the effectiveness of batch prompting on ten
datasets across commonsense QA, arithmetic reasoning, and NLI/NLU: batch
prompting significantly~(up to $5\times$ with six samples in batch) reduces the
LLM (Codex) inference token and time costs while achieving better or comparable
performance. Our analysis shows that the number of samples in each batch and
the complexity of tasks affect its performance. Further, batch prompting can be
applied across different LLMs and reasoning methods.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた数十万のサンプルに対する推論は、計算的かつ経済的にコストがかかる可能性がある。
我々は,LLMが一度に1つのサンプルではなく,バッチで推論を実行できるようにする,シンプルな代替プロンプト手法であるバッチプロンプトを提案する。
ダウンストリーム性能を維持しながらトークンと時間の両方のコストを削減する。
理論的には、数ショットのコンテキスト内学習環境では、各バッチのサンプル数とともに、推論コストはほぼ線形に減少する。
バッチプロンプトが大幅に~(最大$5\times$で6つのサンプルをバッチ化する)ことにより、LLM(Codex)推論トークンと時間コストが削減され、より良い性能や同等のパフォーマンスが達成できる。
分析の結果,各バッチ内のサンプル数とタスクの複雑さは,その性能に影響することがわかった。
さらに、バッチプロンプトは異なるLLMおよび推論方法に適用できる。
関連論文リスト
- Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems [80.54551166283805]
本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。
この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning [31.110005898556892]
大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。
我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。
CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
論文 参考訳(メタデータ) (2023-12-14T13:03:13Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。