論文の概要: The Silent Hyperparameter: Quantifying the Impact of Inference Backends on LLM Reproducibility
- arxiv url: http://arxiv.org/abs/2605.19537v2
- Date: Wed, 20 May 2026 07:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.401187
- Title: The Silent Hyperparameter: Quantifying the Impact of Inference Backends on LLM Reproducibility
- Title(参考訳): サイレントハイパーパラメーター:LLM再現性に対する推論バックエンドの影響の定量化
- Authors: David Pape, Jonathan Evertz, Lea Schönherr,
- Abstract要約: バックエンドのみを選択することで、ベンチマークスコアを最大16.6ポイントシフトできることが示されています。
これは、キャッシュやグラフ、カスタムカーネル、ロジット処理におけるエンジン固有のデフォルトなど、システムレベルの最適化によって実現されています。
- 参考スコア(独自算出の注目度): 4.514361164656055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in LLMs is increasingly measured through standardized benchmarks, where state-of-the-art improvements are often separated by fractions of a percentage point. At the same time, the computational cost of evaluating modern LLMs has driven widespread adoption of specialized inference backends, software systems that execute trained models efficiently at inference time. While critical for scalability, system-level optimizations, such as custom CUDA kernels and reduced-precision arithmetic, can alter token probabilities and introduce non-determinism, possibly cascading into divergent generation. In this work, we first survey the inference landscape, identifying 200 distinct engines, and analyze 35,000 ML publications, finding that the specific inference stack is rarely reported despite this widespread diversity. We then present a systematic empirical study of how inference backends affect LLM benchmark results. Holding model weights, decoding parameters, and hardware constant, we evaluate five widely used inference engines, including vLLM, SGLang, and llama$.$cpp, across multiple open-weight models and established benchmarks. We show that the choice of backend alone can shift benchmark scores by up to 16.6 percentage points and induce high rates of output disagreement. By isolating backend optimizations and tracing the execution pipeline, we find this divergence is driven by system-level optimizations like prefix caching and CUDA graphs, custom kernels, and engine-specific defaults in logit processing. Our findings identify the inference backend as a previously unreported but consequential hyperparameter in the evaluation of LLM and advocate standardized reporting of inference stacks to improve the reproducibility and interpretability of benchmark comparisons.
- Abstract(参考訳): LLMの進歩は標準化されたベンチマークによってますます測定され、最先端の改善はしばしばパーセンテージポイントの分数で分離される。
同時に、現代のLLMを評価するための計算コストは、推論時に効率的にトレーニングされたモデルを実行するソフトウェアシステムである特別な推論バックエンドを広く採用するきっかけとなった。
拡張性には欠かせないが、カスタムCUDAカーネルや縮小精度演算のようなシステムレベルの最適化はトークンの確率を変更し、非決定性を導入し、おそらく分岐生成にカスケードする。
本研究ではまず,200個の異なるエンジンを識別し,35,000個のML出版物を解析し,その多様性にもかかわらず,特定の推論スタックが報告されることは滅多にないことを示した。
次に、推論バックエンドがLLMベンチマーク結果にどのように影響するかについて、体系的な実証的研究を行う。
モデル重み、デコードパラメータ、ハードウェア定数を保持することで、vLLM、SGLang、llama$を含む5つの広く使われている推論エンジンを評価した。
複数のオープンウェイトモデルと確立されたベンチマークにまたがる$cpp。
バックエンドのみの選択は、ベンチマークスコアを最大16.6ポイントシフトし、高い出力不一致率を誘導できることを示す。
バックエンドの最適化を分離し、実行パイプラインをトレースすることにより、この分散は、プレフィックスキャッシングやCUDAグラフ、カスタムカーネル、ロジット処理におけるエンジン固有のデフォルトといった、システムレベルの最適化によって実現される。
本研究は, 推論バックエンドを, LLMの評価において未報告の連続ハイパーパラメータとして認識し, ベンチマーク比較の再現性と解釈性を改善するために, 推論スタックの標準化報告を提唱した。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Optimizing the Interface Between Knowledge Graphs and LLMs for Complex Reasoning [0.0]
知識グラフを用いた大規模言語モデル(LLM)
Cognaneは、エンドツーエンドのKG構築と検索のためのモジュラーフレームワークである。
チャンキング、グラフ構築、検索、プロンプトに関連するパラメータを最適化する。
論文 参考訳(メタデータ) (2025-05-30T11:27:59Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。