論文の概要: Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications
- arxiv url: http://arxiv.org/abs/2511.19933v2
- Date: Wed, 26 Nov 2025 06:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.492649
- Title: Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications
- Title(参考訳): LLMシステムにおける障害モード:信頼性の高いAIアプリケーションのためのシステムレベル分類法
- Authors: Vaishali Vinay,
- Abstract要約: 大規模言語モデル(LLM)は、意思決定支援ツール、自動化、AI対応ソフトウェアシステムに急速に統合されている。
本稿では,現実のLLMアプリケーションで発生する15の隠れ障害モードのシステムレベルでの分類について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are being rapidly integrated into decision-support tools, automation workflows, and AI-enabled software systems. However, their behavior in production environments remains poorly understood, and their failure patterns differ fundamentally from those of traditional machine learning models. This paper presents a system-level taxonomy of fifteen hidden failure modes that arise in real-world LLM applications, including multi-step reasoning drift, latent inconsistency, context-boundary degradation, incorrect tool invocation, version drift, and cost-driven performance collapse. Using this taxonomy, we analyze the growing gap in evaluation and monitoring practices: existing benchmarks measure knowledge or reasoning but provide little insight into stability, reproducibility, drift, or workflow integration. We further examine the production challenges associated with deploying LLMs - including observability limitations, cost constraints, and update-induced regressions - and outline high-level design principles for building reliable, maintainable, and cost-aware LLM systems. Finally, we outline high-level design principles for building reliable, maintainable, and cost-aware LLM-based systems. By framing LLM reliability as a system-engineering problem rather than a purely model-centric one, this work provides an analytical foundation for future research on evaluation methodology, AI system robustness, and dependable LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、意思決定支援ツール、自動化ワークフロー、AI対応ソフトウェアシステムに急速に統合されている。
しかし、本番環境での動作はよく理解されておらず、その失敗パターンは従来の機械学習モデルと根本的に異なる。
本稿では,マルチステップ推論ドリフト,潜時不整合,コンテキスト境界劣化,不正ツール実行,バージョンドリフト,コスト駆動性能崩壊など,現実のLLMアプリケーションで発生する15の隠れ障害モードのシステムレベル分類について述べる。
既存のベンチマークは知識や推論を計測するが、安定性、再現性、ドリフト、ワークフロー統合に関する洞察はほとんど得られない。
さらに、可観測性制限、コスト制約、更新によって引き起こされるレグレッションなど、LCMのデプロイに関連する生産上の課題について検討し、信頼性、保守性、コストに配慮したLCMシステムを構築するための高レベルな設計原則を概説する。
最後に、信頼性、保守性、コストに配慮したLCMベースのシステムを構築するための高レベルな設計原則を概説する。
この研究は、LLMの信頼性を純粋にモデル中心の問題ではなくシステムエンジニアリングの問題とすることで、将来の評価方法論、AIシステムの堅牢性、信頼性の高いLLMデプロイメントに関する研究のための分析基盤を提供する。
関連論文リスト
- Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineering [19.584762693453893]
BEHELMは、ソフトウェア・シナリオ仕様とマルチメトリック評価を一体化する総合的なベンチマーク基盤である。
私たちのゴールは、ソフトウェア工学におけるLLMの公平で現実的で将来的な評価を可能にしながら、ベンチマークを構築するのに必要なオーバーヘッドを減らすことです。
論文 参考訳(メタデータ) (2026-01-28T21:55:10Z) - Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文 参考訳(メタデータ) (2025-10-29T12:08:07Z) - Machine Learning Pipeline for Software Engineering: A Systematic Literature Review [0.0]
この系統的な文献レビューは、ソフトウェア工学(SE)用に設計された最先端の機械学習パイプラインを検証している。
この結果から,データバランシングのためのSMOTEなどの堅牢な前処理がモデルの信頼性を向上させることが示唆された。
ランダムフォレストやグラディエントブースティングのようなアンサンブルメソッドはタスク間でパフォーマンスを支配します。
Best Arithmetic Mean (BAM)のような新しいメトリクスはニッチなアプリケーションに現れている。
論文 参考訳(メタデータ) (2025-07-31T15:37:30Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。
決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。
複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-11T13:48:25Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [28.9807389592324]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Towards a Probabilistic Framework for Analyzing and Improving LLM-Enabled Software [0.0]
大規模言語モデル(LLM)対応システムは、ソフトウェア工学において重要な課題である。
本稿では,これらのシステムを体系的に解析し,改善するための確率的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T22:42:06Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。