論文の概要: Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems
- arxiv url: http://arxiv.org/abs/2403.02419v1
- Date: Mon, 4 Mar 2024 19:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:07:48.939023
- Title: Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems
- Title(参考訳): LLMの呼び出しは必要か?
複合推論システムのスケーリング則に向けて
- Authors: Lingjiao Chen and Jared Quincy Davis and Boris Hanin and Peter Bailis
and Ion Stoica and Matei Zaharia and James Zou
- Abstract要約: 本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。
この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
- 参考スコア(独自算出の注目度): 80.54551166283805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent state-of-the-art results in language tasks were achieved using
compound systems that perform multiple Large Language Model (LLM) calls and
aggregate their responses. However, there is little understanding of how the
number of LLM calls -- e.g., when asking the LLM to answer each question
multiple times and taking a consensus -- affects such a compound system's
performance. In this paper, we initiate the study of scaling laws of compound
inference systems. We analyze, theoretically and empirically, how the number of
LLM calls affects the performance of one-layer Voting Inference Systems -- one
of the simplest compound systems, which aggregates LLM responses via majority
voting. We find empirically that across multiple language tasks, surprisingly,
Voting Inference Systems' performance first increases but then decreases as a
function of the number of LLM calls. Our theoretical results suggest that this
non-monotonicity is due to the diversity of query difficulties within a task:
more LLM calls lead to higher performance on "easy" queries, but lower
performance on "hard" queries, and non-monotone behavior emerges when a task
contains both types of queries. This insight then allows us to compute, from a
small number of samples, the number of LLM calls that maximizes system
performance, and define a scaling law of Voting Inference Systems. Experiments
show that our scaling law can predict the performance of Voting Inference
Systems and find the optimal number of LLM calls to make.
- Abstract(参考訳): 近年,複数の言語モデル (LLM) コールを実行し,その応答を集約する複合システムを用いて,言語タスクにおける最新の結果が得られた。
しかし、LLMの呼び出し数(例えば、LLMに各質問に何回も答えてコンセンサスを取るように求める場合)が、そのような複合システムのパフォーマンスにどのように影響するかはほとんど理解されていない。
本稿では,複合推論システムのスケーリング法則の研究を開始する。
我々は,LLMの呼び出し数が1層投票システムの性能に与える影響を理論的に,理論的に,実証的に分析する。
複数の言語タスクにまたがって、驚くべきことに、投票推論システムのパフォーマンスは最初に向上するが、llm呼び出し数の関数として減少する。
我々の理論的結果は、この非モノトニック性は、タスク内のクエリの難しさの多様性によるものであることを示唆している: より多くのLCM呼び出しが"簡単"なクエリでは高いパフォーマンスをもたらすが、"ハード"なクエリではパフォーマンスが低下し、タスクが両方のクエリを含む場合、非モノトニックな振る舞いが出現する。
この洞察により、少数のサンプルからシステム性能を最大化するLLM呼び出しの数を計算し、投票推論システムのスケーリング法則を定義することができる。
実験により,我々のスケーリング法則は投票推論システムの性能を予測し,LLM呼び出しの最適な回数を求めることができることがわかった。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。
しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。
本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。
7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-06T15:55:05Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs [2.6968321526169503]
学習後の量子化は、Large Language Models (LLM) の計算需要を減らすが、その能力の一部を弱める可能性がある。
本稿では、量子化がより小さなLLMの検索強化生成(RAG)能力にどのように影響するかを考察する。
この結果から, 7B LLM がそのタスクをうまく実行した場合, 量子化ではその性能や長文推論能力が損なわれないことが判明した。
論文 参考訳(メタデータ) (2024-06-10T08:23:52Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization [7.674972936853123]
我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。
予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
論文 参考訳(メタデータ) (2024-02-29T19:00:47Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。