論文の概要: A First Look at Bugs in LLM Inference Engines
- arxiv url: http://arxiv.org/abs/2506.09713v1
- Date: Wed, 11 Jun 2025 13:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.999749
- Title: A First Look at Bugs in LLM Inference Engines
- Title(参考訳): LLM推論エンジンのバグ
- Authors: Mugeng Liu, Siqi Zhong, Weichen Bi, Yixuan Zhang, Zhiyang Chen, Zhenpeng Chen, Xuanzhe Liu, Yun Ma,
- Abstract要約: LLM推論エンジンにおけるバグに関する最初の実証的研究について述べる。
我々は5つの広く採用されているLLM推論エンジンの公式リポジトリをマイニングし、現実世界のバグ929の包括的なデータセットを構築した。
その結果,6つの主要なバグ症状と28の根本原因の分類が明らかとなり,バグの検出と位置に関する重要な課題に光を当てた。
- 参考スコア(独自算出の注目度): 20.52104110967081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model-specific inference engines (in short as \emph{LLM inference engines}) have become a fundamental component of modern AI infrastructure, enabling the deployment of LLM-powered applications (LLM apps) across cloud and local devices. Despite their critical role, LLM inference engines are prone to bugs due to the immense resource demands of LLMs and the complexities of cross-platform compatibility. However, a systematic understanding of these bugs remains lacking. To bridge this gap, we present the first empirical study on bugs in LLM inference engines. We mine official repositories of 5 widely adopted LLM inference engines, constructing a comprehensive dataset of 929 real-world bugs. Through a rigorous open coding process, we analyze these bugs to uncover their symptoms, root causes, and commonality. Our findings reveal six major bug symptoms and a taxonomy of 28 root causes, shedding light on the key challenges in bug detection and location within LLM inference engines. Based on these insights, we propose a series of actionable implications for researchers, inference engine vendors, and LLM app developers.
- Abstract(参考訳): 大規模言語モデル固有の推論エンジン(略して \emph{LLM inference engine} )は、現代のAIインフラストラクチャの基本コンポーネントとなり、クラウドとローカルデバイスにLLMベースのアプリケーション(LLMアプリ)をデプロイできるようになった。
その重要な役割にもかかわらず、LLM推論エンジンは、LLMの膨大なリソース要求とクロスプラットフォーム互換性の複雑さのためにバグを起こしやすい。
しかし、これらのバグに関する体系的な理解はいまだに欠けている。
このギャップを埋めるために,LLM推論エンジンのバグに関する実証的研究を行った。
我々は5つの広く採用されているLLM推論エンジンの公式リポジトリをマイニングし、現実世界のバグ929の包括的なデータセットを構築した。
厳密なオープンコーディングプロセスを通じて、これらのバグを分析して、症状、根本原因、共通点を明らかにする。
以上の結果から, LLM推論エンジンのバグ検出と位置決定において, 6つの主要なバグ症状と28の根本原因の分類が示唆された。
これらの知見に基づき、研究者、推論エンジンベンダー、LLMアプリ開発者に対して、一連の実用的な意味合いを提案する。
関連論文リスト
- Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models [4.757323827658957]
自動プログラム修正は、開発者がソフトウェアをメンテナンスするのを助けるバグ修正を提案する。
近年の研究では、LLMを修復に利用できることが示されている。
オープンモデル (Llama 3.3, Qwen 2.5 Coder, DeepSeek R1 (dist.) など) やクローズドモデル (o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash など) を含む,最新の13モデルの多種多様なセットを評価した。
論文 参考訳(メタデータ) (2025-06-03T18:15:14Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization [12.80414941523501]
AutoFLは、提案された障害位置とともに、バグの説明を生成する。
JavaとPythonの798の現実世界のバグの実験では、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。