論文の概要: Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications
- arxiv url: http://arxiv.org/abs/2511.19933v2
- Date: Wed, 26 Nov 2025 06:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.492649
- Title: Failure Modes in LLM Systems: A System-Level Taxonomy for Reliable AI Applications
- Title(参考訳): LLMシステムにおける障害モード:信頼性の高いAIアプリケーションのためのシステムレベル分類法
- Authors: Vaishali Vinay,
- Abstract要約: 大規模言語モデル(LLM)は、意思決定支援ツール、自動化、AI対応ソフトウェアシステムに急速に統合されている。
本稿では,現実のLLMアプリケーションで発生する15の隠れ障害モードのシステムレベルでの分類について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are being rapidly integrated into decision-support tools, automation workflows, and AI-enabled software systems. However, their behavior in production environments remains poorly understood, and their failure patterns differ fundamentally from those of traditional machine learning models. This paper presents a system-level taxonomy of fifteen hidden failure modes that arise in real-world LLM applications, including multi-step reasoning drift, latent inconsistency, context-boundary degradation, incorrect tool invocation, version drift, and cost-driven performance collapse. Using this taxonomy, we analyze the growing gap in evaluation and monitoring practices: existing benchmarks measure knowledge or reasoning but provide little insight into stability, reproducibility, drift, or workflow integration. We further examine the production challenges associated with deploying LLMs - including observability limitations, cost constraints, and update-induced regressions - and outline high-level design principles for building reliable, maintainable, and cost-aware LLM systems. Finally, we outline high-level design principles for building reliable, maintainable, and cost-aware LLM-based systems. By framing LLM reliability as a system-engineering problem rather than a purely model-centric one, this work provides an analytical foundation for future research on evaluation methodology, AI system robustness, and dependable LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、意思決定支援ツール、自動化ワークフロー、AI対応ソフトウェアシステムに急速に統合されている。
しかし、本番環境での動作はよく理解されておらず、その失敗パターンは従来の機械学習モデルと根本的に異なる。
本稿では,マルチステップ推論ドリフト,潜時不整合,コンテキスト境界劣化,不正ツール実行,バージョンドリフト,コスト駆動性能崩壊など,現実のLLMアプリケーションで発生する15の隠れ障害モードのシステムレベル分類について述べる。
既存のベンチマークは知識や推論を計測するが、安定性、再現性、ドリフト、ワークフロー統合に関する洞察はほとんど得られない。
さらに、可観測性制限、コスト制約、更新によって引き起こされるレグレッションなど、LCMのデプロイに関連する生産上の課題について検討し、信頼性、保守性、コストに配慮したLCMシステムを構築するための高レベルな設計原則を概説する。
最後に、信頼性、保守性、コストに配慮したLCMベースのシステムを構築するための高レベルな設計原則を概説する。
この研究は、LLMの信頼性を純粋にモデル中心の問題ではなくシステムエンジニアリングの問題とすることで、将来の評価方法論、AIシステムの堅牢性、信頼性の高いLLMデプロイメントに関する研究のための分析基盤を提供する。
関連論文リスト
- Machine Learning Pipeline for Software Engineering: A Systematic Literature Review [0.0]
この系統的な文献レビューは、ソフトウェア工学(SE)用に設計された最先端の機械学習パイプラインを検証している。
この結果から,データバランシングのためのSMOTEなどの堅牢な前処理がモデルの信頼性を向上させることが示唆された。
ランダムフォレストやグラディエントブースティングのようなアンサンブルメソッドはタスク間でパフォーマンスを支配します。
Best Arithmetic Mean (BAM)のような新しいメトリクスはニッチなアプリケーションに現れている。
論文 参考訳(メタデータ) (2025-07-31T15:37:30Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。
決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。
複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-11T13:48:25Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [28.9807389592324]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Towards a Probabilistic Framework for Analyzing and Improving LLM-Enabled Software [0.0]
大規模言語モデル(LLM)対応システムは、ソフトウェア工学において重要な課題である。
本稿では,これらのシステムを体系的に解析し,改善するための確率的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T22:42:06Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。