Fugu-MT 論文翻訳(概要): Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems

論文の概要: Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems

arxiv url: http://arxiv.org/abs/2403.02419v1
Date: Mon, 4 Mar 2024 19:12:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 17:07:48.939023
Title: Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems
Title（参考訳）: LLMの呼び出しは必要か? 複合推論システムのスケーリング則に向けて
Authors: Lingjiao Chen and Jared Quincy Davis and Boris Hanin and Peter Bailis and Ion Stoica and Matei Zaharia and James Zou
Abstract要約: 本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
参考スコア（独自算出の注目度）: 80.54551166283805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many recent state-of-the-art results in language tasks were achieved using compound systems that perform multiple Large Language Model (LLM) calls and aggregate their responses. However, there is little understanding of how the number of LLM calls -- e.g., when asking the LLM to answer each question multiple times and taking a consensus -- affects such a compound system's performance. In this paper, we initiate the study of scaling laws of compound inference systems. We analyze, theoretically and empirically, how the number of LLM calls affects the performance of one-layer Voting Inference Systems -- one of the simplest compound systems, which aggregates LLM responses via majority voting. We find empirically that across multiple language tasks, surprisingly, Voting Inference Systems' performance first increases but then decreases as a function of the number of LLM calls. Our theoretical results suggest that this non-monotonicity is due to the diversity of query difficulties within a task: more LLM calls lead to higher performance on "easy" queries, but lower performance on "hard" queries, and non-monotone behavior emerges when a task contains both types of queries. This insight then allows us to compute, from a small number of samples, the number of LLM calls that maximizes system performance, and define a scaling law of Voting Inference Systems. Experiments show that our scaling law can predict the performance of Voting Inference Systems and find the optimal number of LLM calls to make.
Abstract（参考訳）: 近年,複数の言語モデル (LLM) コールを実行し,その応答を集約する複合システムを用いて,言語タスクにおける最新の結果が得られた。しかし、LLMの呼び出し数(例えば、LLMに各質問に何回も答えてコンセンサスを取るように求める場合)が、そのような複合システムのパフォーマンスにどのように影響するかはほとんど理解されていない。本稿では,複合推論システムのスケーリング法則の研究を開始する。我々は,LLMの呼び出し数が1層投票システムの性能に与える影響を理論的に,理論的に,実証的に分析する。複数の言語タスクにまたがって、驚くべきことに、投票推論システムのパフォーマンスは最初に向上するが、llm呼び出し数の関数として減少する。我々の理論的結果は、この非モノトニック性は、タスク内のクエリの難しさの多様性によるものであることを示唆している: より多くのLCM呼び出しが"簡単"なクエリでは高いパフォーマンスをもたらすが、"ハード"なクエリではパフォーマンスが低下し、タスクが両方のクエリを含む場合、非モノトニックな振る舞いが出現する。この洞察により、少数のサンプルからシステム性能を最大化するLLM呼び出しの数を計算し、投票推論システムのスケーリング法則を定義することができる。実験により,我々のスケーリング法則は投票推論システムの性能を予測し,LLM呼び出しの最適な回数を求めることができることがわかった。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Learning to Reason Across Parallel Samples for LLM Reasoning [45.60752271688715]
テスト時間計算のスケールアップは、大規模な言語モデルに大幅なパフォーマンス向上をもたらす。このような複数のサンプルセットを活用する新しい方法を提案する。我々は、複数のサンプルのシーケンスを取り、最終的な答えを出力するコンパクトなLLMを訓練する。
論文参考訳（メタデータ） (2025-06-10T17:42:35Z)
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文参考訳（メタデータ） (2025-06-06T23:13:08Z)
LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。 LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文参考訳（メタデータ） (2025-05-09T15:21:44Z)
Optimizing Model Selection for Compound AI Systems [76.69936664916061]
本稿では,複合システムにおけるモデル選択のための効率的なフレームワークを提案する。 1つのモジュールを反復的に選択し、最も高いモジュールレベルのパフォーマンスを持つモデルを割り当てます。すべてのモジュールで同じLLMを使用する場合と比較して、5%-70%の精度向上が期待できる。
論文参考訳（メタデータ） (2025-02-20T18:36:25Z)
Rank It, Then Ask It: Input Reranking for Maximizing the Performance of LLMs on Symmetric Tasks [9.867695275243879]
大規模言語モデル(LLM)は、実用的で汎用的なツールとして急速に登場した。クエリが(順序のない)要素のバッグ上で要求される対称なタスクに対する LLM の適用について検討する。
論文参考訳（メタデータ） (2024-11-30T17:39:59Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なタスクで顕著な成功を収めたため、人気が高まっている。しかしながら、個々のLLMは、トレーニングバイアス、モデルサイズ、使用されるデータセットなどの要因のために、複雑なタスクに適用する場合に制限がある。本稿では,入力クエリを大規模プールからLLMの最も適切なサブセットに誘導する新しいアルゴリズムであるSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification [34.9210323553677]
LAMPOは,Large Language Models (LLMs) を多クラス順序分類タスクに応用した新しいパラダイムである。 7つの公開データセットに関する大規模な実験は、多様なアプリケーションにわたるLAMPOの極めて競争力のあるパフォーマンスを示している。
論文参考訳（メタデータ） (2024-08-06T15:55:05Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs [2.6968321526169503]
学習後の量子化は、Large Language Models (LLM) の計算需要を減らすが、その能力の一部を弱める可能性がある。本稿では、量子化がより小さなLLMの検索強化生成(RAG)能力にどのように影響するかを考察する。この結果から, 7B LLM がそのタスクをうまく実行した場合, 量子化ではその性能や長文推論能力が損なわれないことが判明した。
論文参考訳（メタデータ） (2024-06-10T08:23:52Z)
Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文参考訳（メタデータ） (2024-04-16T08:28:16Z)
Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization [7.674972936853123]
我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
論文参考訳（メタデータ） (2024-02-29T19:00:47Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。