論文の概要: Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems
- arxiv url: http://arxiv.org/abs/2403.02419v1
- Date: Mon, 4 Mar 2024 19:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:07:48.939023
- Title: Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems
- Title(参考訳): LLMの呼び出しは必要か?
複合推論システムのスケーリング則に向けて
- Authors: Lingjiao Chen and Jared Quincy Davis and Boris Hanin and Peter Bailis
and Ion Stoica and Matei Zaharia and James Zou
- Abstract要約: 本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。
この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
- 参考スコア(独自算出の注目度): 80.54551166283805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent state-of-the-art results in language tasks were achieved using
compound systems that perform multiple Large Language Model (LLM) calls and
aggregate their responses. However, there is little understanding of how the
number of LLM calls -- e.g., when asking the LLM to answer each question
multiple times and taking a consensus -- affects such a compound system's
performance. In this paper, we initiate the study of scaling laws of compound
inference systems. We analyze, theoretically and empirically, how the number of
LLM calls affects the performance of one-layer Voting Inference Systems -- one
of the simplest compound systems, which aggregates LLM responses via majority
voting. We find empirically that across multiple language tasks, surprisingly,
Voting Inference Systems' performance first increases but then decreases as a
function of the number of LLM calls. Our theoretical results suggest that this
non-monotonicity is due to the diversity of query difficulties within a task:
more LLM calls lead to higher performance on "easy" queries, but lower
performance on "hard" queries, and non-monotone behavior emerges when a task
contains both types of queries. This insight then allows us to compute, from a
small number of samples, the number of LLM calls that maximizes system
performance, and define a scaling law of Voting Inference Systems. Experiments
show that our scaling law can predict the performance of Voting Inference
Systems and find the optimal number of LLM calls to make.
- Abstract(参考訳): 近年,複数の言語モデル (LLM) コールを実行し,その応答を集約する複合システムを用いて,言語タスクにおける最新の結果が得られた。
しかし、LLMの呼び出し数(例えば、LLMに各質問に何回も答えてコンセンサスを取るように求める場合)が、そのような複合システムのパフォーマンスにどのように影響するかはほとんど理解されていない。
本稿では,複合推論システムのスケーリング法則の研究を開始する。
我々は,LLMの呼び出し数が1層投票システムの性能に与える影響を理論的に,理論的に,実証的に分析する。
複数の言語タスクにまたがって、驚くべきことに、投票推論システムのパフォーマンスは最初に向上するが、llm呼び出し数の関数として減少する。
我々の理論的結果は、この非モノトニック性は、タスク内のクエリの難しさの多様性によるものであることを示唆している: より多くのLCM呼び出しが"簡単"なクエリでは高いパフォーマンスをもたらすが、"ハード"なクエリではパフォーマンスが低下し、タスクが両方のクエリを含む場合、非モノトニックな振る舞いが出現する。
この洞察により、少数のサンプルからシステム性能を最大化するLLM呼び出しの数を計算し、投票推論システムのスケーリング法則を定義することができる。
実験により,我々のスケーリング法則は投票推論システムの性能を予測し,LLM呼び出しの最適な回数を求めることができることがわかった。
関連論文リスト
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for
Themselves [63.33254282051988]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。