論文の概要: Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2606.02430v1
- Date: Mon, 01 Jun 2026 16:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.482225
- Title: Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference
- Title(参考訳): すべての誤りが等しくなるわけではない:大規模言語モデル推論における誤り伝播の体系的研究
- Authors: Yafan Huang, Sheng Di, Guanpeng Li,
- Abstract要約: 本稿では,大規模な言語モデル (LLM) 推論における誤りの伝播に関する包括的研究を行い,本提案の故障注入フレームワークで実現した。
3つのオープンウェイトなLLMと13の代表的なタスクに障害を注入し、推論、多言語、数学的、コーディングドメインをカバーします。
本研究は,LLM推論における誤り伝播の理解を深める17のテイクアウトを得た。
- 参考スコア(独自算出の注目度): 3.160702454918557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly integrated into high-performance computing (HPC) workflows, accelerating scientific discovery through diverse perspectives such as code generation and domain-specific decision-making. Yet, how soft errors propagate and affect LLM inference remains largely unexplored. To bridge this gap, we present a comprehensive study on error propagation in LLM inference, enabled by our proposed LLMFI, a configurable and deterministic fault-injection framework. Using LLMFI, we systematically inject faults across three open-weighted LLMs and thirteen representative tasks, covering reasoning, multilingual, mathematical, and coding domains. In addition, we conduct fine-grained case studies that reveal critical vulnerability patterns. Overall, our study yields 17 takeaways that advance the understanding of error propagation in LLM inference and introduces four low-overhead directions to improve reliability through software-only modification, offering practical guidance for future error detection and mitigation.
- Abstract(参考訳): 大規模言語モデル(LLM)はハイパフォーマンスコンピューティング(HPC)ワークフローに統合され、コード生成やドメイン固有の意思決定といった様々な観点から科学的発見が加速されている。
しかし、LLM推論におけるソフトエラーの伝播と影響は、いまだに未解明のままである。
このギャップを埋めるために,提案したLLMFIは,設定可能かつ決定論的な故障注入フレームワークである。
LLMFIを用いて、3つのオープンウェイトなLLMと13の代表的なタスクに障害を系統的に注入し、推論、多言語、数学的、コーディングの領域をカバーする。
さらに、重要な脆弱性パターンを明らかにするためのきめ細かいケーススタディも行います。
本研究は,LLM推論における誤り伝播の理解を促進するための17のテイクアウトと,ソフトウェアのみの修正による信頼性向上のための4つの低オーバーヘッド方向を導入し,将来的なエラー検出と緩和のための実用的なガイダンスを提供する。
関連論文リスト
- Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。
包括的なエラー解析と手動分類を行う。
その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文 参考訳(メタデータ) (2025-08-07T11:02:32Z) - Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。
複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - RvLLM: LLM Runtime Verification with Domain Knowledge [8.15645390408007]
大規模言語モデル(LLM)は、例外的なテキスト理解と生成能力のため、AIパラダイムの主流として現れている。
不整合または誤ったアウトプットを生成する傾向は、特に正確さと信頼性を必要とする高い領域において、その信頼性に挑戦する。
既存の研究は、多くの場合、ドメイン固有の知識を統合する可能性を見越して、汎用シナリオにおけるモデル誤動作の検出と緩和に重点を置いている。
論文 参考訳(メタデータ) (2025-05-24T08:21:44Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。