論文の概要: Identifying and Mitigating Systemic Measurement Bias in Production LLM Inference Benchmarks
- arxiv url: http://arxiv.org/abs/2605.24217v2
- Date: Tue, 26 May 2026 05:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.994104
- Title: Identifying and Mitigating Systemic Measurement Bias in Production LLM Inference Benchmarks
- Title(参考訳): LLM推論ベンチマークにおけるシステム計測バイアスの同定と修正
- Authors: Ashok Chandrasekar, Jason Kramberger,
- Abstract要約: ベンチマークユーティリティは、基本的なクライアント側キューのボトルネックを導入する、シングルプロセスの非同期駆動アーキテクチャに依存していることを示す。
クライアント側の負荷を効果的に分散し、無視可能なキューオーバヘッドを保証する、バイアスのないマルチプロセス評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.044646432723069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) transition from research environments to production deployments, evaluating their performance against strict Service Level Objectives (SLOs) has become critical. However, current evaluation methodologies suffer from severe measurement bias at scale. We demonstrate that widely used benchmarking utilities rely on single-process, asyncio-driven architectures that introduce fundamental client-side queuing bottlenecks under high concurrency. By modeling the benchmarking client as an $M/G/1$ queue, we mathematically demonstrate how the Python Global Interpreter Lock (GIL) artificially inflates Time to First Token (TTFT) and Time Per Output Token (TPOT) metrics as request rates scale. To resolve this systematic inaccuracy, we propose an unbiased, multi-process evaluation framework that effectively distributes client-side load, ensuring negligible queuing overhead. Furthermore, we formalize a composite metric, Normalized Time Per Output Token (NTPOT), to robustly amortize end-to-end latency, including prefill and scheduling delays across sequence lengths. Our empirical evaluation demonstrates that this methodology successfully isolates pure serving engine performance, enabling accurate, reproducible profiling of LLMs at production scales exceeding thousands of queries per second.
- Abstract(参考訳): 大きな言語モデル(LLM)が研究環境から本番環境への移行に伴って、厳格なサービスレベルオブジェクト(SLO)に対するパフォーマンス評価が重要になっている。
しかし、現在の評価手法は大規模な測定バイアスに悩まされている。
我々は、広く使用されているベンチマークユーティリティが、高並行性の下でクライアントサイドの待ち行列の基本的なボトルネックを導入する、シングルプロセスの非同期駆動アーキテクチャに依存していることを実証した。
ベンチマーククライアントを$M/G/1$キューとしてモデル化することにより,Python Global Interpreter Lock (GIL) が人工的に Time to First Token (TTFT) と Time Per Output Token (TPOT) のメトリクスを要求レート尺度としてどのように膨らませるかを数学的に示す。
この系統的不正確性を解決するために,クライアント側の負荷を効果的に分散し,無視可能なキューオーバヘッドを確保する,非バイアスのマルチプロセス評価フレームワークを提案する。
さらに,NTPOT(Normalized Time Per Output Token)という複合メトリックを形式化し,シーケンス長のプリフィルやスケジューリング遅延を含む,エンドツーエンドの遅延を堅牢に補正する。
我々の実証実験により,本手法は純粋なサーブエンジン性能の分離に成功し,実運用スケールでのLLMの再現可能なプロファイリングを毎秒数千クエリを超える精度で実現することを示した。
関連論文リスト
- The Silent Hyperparameter: Quantifying the Impact of Inference Backends on LLM Reproducibility [4.514361164656055]
バックエンドのみを選択することで、ベンチマークスコアを最大16.6ポイントシフトできることが示されています。
これは、キャッシュやグラフ、カスタムカーネル、ロジット処理におけるエンジン固有のデフォルトなど、システムレベルの最適化によって実現されています。
論文 参考訳(メタデータ) (2026-05-19T08:37:27Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor [5.097511974401423]
ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。
ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
論文 参考訳(メタデータ) (2025-05-14T04:50:00Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Etalon: Holistic Performance Evaluation Framework for LLM Inference Systems [11.712948114304925]
大規模言語モデル(LLM)の生産は、かなりのコストを発生させる可能性がある。
流動性指数を含む総合的な性能評価フレームワークであるEtalonを提案する。
また、さまざまなオープンソースプラットフォームや、Etalonを使ったモデル・アズ・ア・サービスも評価しています。
論文 参考訳(メタデータ) (2024-07-09T16:13:26Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。