Fugu-MT 論文翻訳(概要): Batch Prompting: Efficient Inference with Large Language Model APIs

論文の概要: Batch Prompting: Efficient Inference with Large Language Model APIs

arxiv url: http://arxiv.org/abs/2301.08721v2
Date: Tue, 24 Oct 2023 07:58:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 03:19:08.585520
Title: Batch Prompting: Efficient Inference with Large Language Model APIs
Title（参考訳）: Batch Prompting: 大規模言語モデルAPIによる効率的な推論
Authors: Zhoujun Cheng, Jungo Kasai, Tao Yu
Abstract要約: 大規模言語モデル(LLM)を用いた大量のサンプルに対する推論は、計算的かつ経済的にコストがかかる可能性がある。我々は,LLMがバッチで推論を実行できるようにする,シンプルで効果的なプロンプト手法であるバッチプロンプトを提案する。バッチプロンプトの有効性を,コモンセンスQA,算術的推論,NLI/NLUで検証した。
参考スコア（独自算出の注目度）: 37.70875323133654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Performing inference on large volumes of samples with large language models (LLMs) can be computationally and financially costly in industry and real-world use. We propose batch prompting, a simple yet effective prompting approach that enables the LLM to run inference in batches, instead of one sample at a time. Our method reduces both token and time costs while retaining downstream performance. We theoretically demonstrate that under a few-shot in-context learning setting, the inference costs decrease almost inverse linearly with the number of samples in each batch. We extensively validate the effectiveness of batch prompting on ten datasets across commonsense QA, arithmetic reasoning, and NLI/NLU: batch prompting significantly~(up to 5x with six samples in batch) reduces the LLM (Codex) inference token and time costs while achieving better or comparable performance. For state-of-the-art Chat-based LLMs, e.g., GPT-3.5 and GPT-4, we show the benefits of batch prompting also hold. Further analysis shows that the number of samples in each batch and the complexity of tasks affect its performance. Moreover, batch prompting can be applied across different reasoning methods using LLMs. Our code can be found at the site https://github.com/xlang-ai/batch-prompting.
Abstract（参考訳）: 大規模言語モデル(LLM)を用いた大量のサンプルに対する推論は、産業や実世界の利用において計算的かつ経済的にコストがかかる可能性がある。我々は,LLMが1回に1つのサンプルではなく,バッチで推論を実行できるようにする,シンプルで効果的なプロンプト手法であるバッチプロンプトを提案する。ダウンストリーム性能を維持しながらトークンと時間の両方のコストを削減する。理論的には、数ショットのコンテキスト内学習環境では、各バッチのサンプル数とともに、推論コストはほぼ線形に減少する。バッチプロンプトが著しく~(最大で6つのサンプルで5倍)、LLM(Codex)推論トークンと時間コストが削減され、性能が向上または同等になる。 GPT-3.5 や GPT-4 のような最先端の Chat ベースの LLM では、バッチプロンプトの利点も保たれている。さらに分析した結果、各バッチ内のサンプル数とタスクの複雑さがパフォーマンスに影響することがわかった。さらに、バッチプロンプトはLLMを用いて異なる推論方法に適用できる。私たちのコードはhttps://github.com/xlang-ai/batch-promptingのサイトにある。

関連論文リスト

Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows [1.6163129903911508]
現実世界のアプリケーションのための微調整の小さな言語モデル(SLM)は、もはや明確ではないかもしれない。我々は、低符号を生成するタスクにおいて、SLMの微調整とLCMのプロンプトを比較した。適切なプロンプトが妥当な結果をもたらす一方で、微調整は品質を平均で10%向上させる。
論文参考訳（メタデータ） (2025-05-30T03:59:35Z)
M-Ped: Multi-Prompt Ensemble Decoding for Large Language Models [12.96619003056978]
本稿では,大規模言語モデルの生成品質を高めるために設計された,新しいマルチプロンプトアンサンブルデコーディング手法を提案する。ユニークな入力である$X$を与えられた場合、確率分布を復号し導出するために、バッチモードで$X$のプロンプトの$n$をLLMに送信する。各トークン予測に対して,この集約された確率を用いて,バッチ内の$n$確率分布を平均化し,トークンを生成することで,アンサンブル確率を算出する。
論文参考訳（メタデータ） (2024-12-24T09:06:58Z)
Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳（メタデータ） (2024-10-12T09:21:45Z)
Auto-Demo Prompting: Leveraging Generated Outputs as Demonstrations for Enhanced Batch Prompting [0.8238423959893132]
自動デモ(Auto-Demo Prompting)は、初期質問からの問合せペアを、その後の回答推論の実証としてバッチ内で活用する、新しいアプローチである。本手法は,バッチプロンプトと少数ショットプロンプトのギャップを効果的に埋め,トークン使用率のわずかな妥協だけで性能を向上する。
論文参考訳（メタデータ） (2024-10-02T16:34:40Z)
Efficient multi-prompt evaluation of LLMs [36.46258631685666]
PromptEvalは,多数のプロンプトに対して性能を推定する手法である。 PromptEvalは一貫して性能分布を推定し,その有効性を実証的に証明する。本稿では,LLM-as-a-judgeにおいてPromptEvalが有効であることを示す。
論文参考訳（メタデータ） (2024-05-27T14:24:47Z)
Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文参考訳（メタデータ） (2024-03-04T16:23:58Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)
Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。 IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文参考訳（メタデータ） (2022-06-04T10:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。