Fugu-MT 論文翻訳(概要): A First Look at Bugs in LLM Inference Engines

論文の概要: A First Look at Bugs in LLM Inference Engines

arxiv url: http://arxiv.org/abs/2506.09713v1
Date: Wed, 11 Jun 2025 13:25:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:02.999749
Title: A First Look at Bugs in LLM Inference Engines
Title（参考訳）: LLM推論エンジンのバグ
Authors: Mugeng Liu, Siqi Zhong, Weichen Bi, Yixuan Zhang, Zhiyang Chen, Zhenpeng Chen, Xuanzhe Liu, Yun Ma,
Abstract要約: LLM推論エンジンにおけるバグに関する最初の実証的研究について述べる。我々は5つの広く採用されているLLM推論エンジンの公式リポジトリをマイニングし、現実世界のバグ929の包括的なデータセットを構築した。その結果,6つの主要なバグ症状と28の根本原因の分類が明らかとなり,バグの検出と位置に関する重要な課題に光を当てた。
参考スコア（独自算出の注目度）: 20.52104110967081
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model-specific inference engines (in short as \emph{LLM inference engines}) have become a fundamental component of modern AI infrastructure, enabling the deployment of LLM-powered applications (LLM apps) across cloud and local devices. Despite their critical role, LLM inference engines are prone to bugs due to the immense resource demands of LLMs and the complexities of cross-platform compatibility. However, a systematic understanding of these bugs remains lacking. To bridge this gap, we present the first empirical study on bugs in LLM inference engines. We mine official repositories of 5 widely adopted LLM inference engines, constructing a comprehensive dataset of 929 real-world bugs. Through a rigorous open coding process, we analyze these bugs to uncover their symptoms, root causes, and commonality. Our findings reveal six major bug symptoms and a taxonomy of 28 root causes, shedding light on the key challenges in bug detection and location within LLM inference engines. Based on these insights, we propose a series of actionable implications for researchers, inference engine vendors, and LLM app developers.
Abstract（参考訳）: 大規模言語モデル固有の推論エンジン(略して \emph{LLM inference engine} )は、現代のAIインフラストラクチャの基本コンポーネントとなり、クラウドとローカルデバイスにLLMベースのアプリケーション(LLMアプリ)をデプロイできるようになった。その重要な役割にもかかわらず、LLM推論エンジンは、LLMの膨大なリソース要求とクロスプラットフォーム互換性の複雑さのためにバグを起こしやすい。しかし、これらのバグに関する体系的な理解はいまだに欠けている。このギャップを埋めるために,LLM推論エンジンのバグに関する実証的研究を行った。我々は5つの広く採用されているLLM推論エンジンの公式リポジトリをマイニングし、現実世界のバグ929の包括的なデータセットを構築した。厳密なオープンコーディングプロセスを通じて、これらのバグを分析して、症状、根本原因、共通点を明らかにする。以上の結果から, LLM推論エンジンのバグ検出と位置決定において, 6つの主要なバグ症状と28の根本原因の分類が示唆された。これらの知見に基づき、研究者、推論エンジンベンダー、LLMアプリ開発者に対して、一連の実用的な意味合いを提案する。

関連論文リスト

Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文参考訳（メタデータ） (2025-06-12T07:24:59Z)
Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models [4.757323827658957]
自動プログラム修正は、開発者がソフトウェアをメンテナンスするのを助けるバグ修正を提案する。近年の研究では、LLMを修復に利用できることが示されている。オープンモデル (Llama 3.3, Qwen 2.5 Coder, DeepSeek R1 (dist.) など) やクローズドモデル (o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash など) を含む,最新の13モデルの多種多様なセットを評価した。
論文参考訳（メタデータ） (2025-06-03T18:15:14Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文参考訳（メタデータ） (2024-10-25T18:36:37Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文参考訳（メタデータ） (2023-11-08T08:42:30Z)
The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。 LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文参考訳（メタデータ） (2023-10-20T02:37:44Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization [12.80414941523501]
AutoFLは、提案された障害位置とともに、バグの説明を生成する。 JavaとPythonの798の現実世界のバグの実験では、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。
論文参考訳（メタデータ） (2023-08-10T10:26:55Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。