論文の概要: Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs
- arxiv url: http://arxiv.org/abs/2601.13655v1
- Date: Tue, 20 Jan 2026 06:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.189321
- Title: Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs
- Title(参考訳): LLMがコンピューティングを停止する理由 - オープンソースLLMにおけるユーザ報告失敗の実証的研究-
- Authors: Guangba Yu, Zirui Wang, Yujie Huang, Renyi Zhong, Yuedong Zhong, Yilun Wang, Michael R. Lyu,
- Abstract要約: オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
- 参考スコア(独自算出の注目度): 50.075587392477935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The democratization of open-source Large Language Models (LLMs) allows users to fine-tune and deploy models on local infrastructure but exposes them to a First Mile deployment landscape. Unlike black-box API consumption, the reliability of user-managed orchestration remains a critical blind spot. To bridge this gap, we conduct the first large-scale empirical study of 705 real-world failures from the open-source DeepSeek, Llama, and Qwen ecosystems. Our analysis reveals a paradigm shift: white-box orchestration relocates the reliability bottleneck from model algorithmic defects to the systemic fragility of the deployment stack. We identify three key phenomena: (1) Diagnostic Divergence: runtime crashes distinctively signal infrastructure friction, whereas incorrect functionality serves as a signature for internal tokenizer defects. (2) Systemic Homogeneity: Root causes converge across divergent series, confirming reliability barriers are inherent to the shared ecosystem rather than specific architectures. (3) Lifecycle Escalation: Barriers escalate from intrinsic configuration struggles during fine-tuning to compounded environmental incompatibilities during inference. Supported by our publicly available dataset, these insights provide actionable guidance for enhancing the reliability of the LLM landscape.
- Abstract(参考訳): オープンソースのLarge Language Models(LLMs)の民主化により、ユーザーはローカルインフラストラクチャ上でモデルを微調整してデプロイできるが、First Mileデプロイメントのランドスケープに公開することができる。
ブラックボックスAPIの消費とは異なり、ユーザ管理オーケストレーションの信頼性は依然として重要な盲点である。
このギャップを埋めるために、オープンソースのDeepSeek、Llama、Qwenのエコシステムから705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
1)診断の多様性: 実行時のクラッシュはインフラの摩擦を特異的に信号するが、不正確な機能は内部トークン化の欠陥のシグネチャとして機能する。
2) 系統的均質性: ルートは発散級数に収束し、信頼性障壁が特定のアーキテクチャではなく共有エコシステムに固有のものであることを確認する。
(3) ライフサイクル・エスカレーション(ライフサイクル・エスカレーション: バリアー)は, 微調整中の内在的な構成上の困難から, 推論中の環境不整合性の複合化まで, エスカレートする。
これらの知見は、LLMランドスケープの信頼性を高めるための実用的なガイダンスを提供する。
関連論文リスト
- CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure [2.0880077827773227]
本稿では,真の消去と難読化を区別する表現対応アーキテクチャであるKnowledge Immunization Framework(KIF)を紹介する。
提案手法は,主観的表現の動的抑制とパラメータ効率の適応を組み合わせ,完全モデル再学習を伴わない耐久性のある未学習を実現する。
論文 参考訳(メタデータ) (2026-01-15T16:28:14Z) - Hypothesize-Then-Verify: Speculative Root Cause Analysis for Microservices with Pathwise Parallelism [19.31110304702373]
SpecRCAは、thithypothesize-then-verifyパラダイムを採用した投機的根本原因分析フレームワークである。
AIOps 2022に関する予備的な実験では、既存のアプローチよりも精度と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2026-01-06T05:58:25Z) - Mechanistic Analysis of Circuit Preservation in Federated Learning [0.3823356975862005]
フェデレートラーニング(FL)は、分散データ上でモデルの協調訓練を可能にするが、その性能は非IIDデータ条件下で著しく低下する。
本稿では、メカニスティック・インタプリタビリティ(MI)のレンズによる標準FedAvgアルゴリズムについて検討し、この故障モードを診断する。
論文 参考訳(メタデータ) (2025-12-28T19:03:14Z) - EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。
ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。
本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文 参考訳(メタデータ) (2025-10-14T16:23:11Z) - DMFI: Dual-Modality Fine-Tuning and Inference Framework for LLM-Based Insider Threat Detection [9.049925971684837]
インサイダー脅威モダリティ(ITD)は、サイバーセキュリティにおいて永続的で高影響の課題となる。
伝統的なモデルは、しばしば意味的な意図と複雑な振る舞いのダイナミクスを捉えるのに苦労する。
動作認識の微調整とセマンティック推論を統合した2つのモダリティフレームワークであるDMFIを提案する。
論文 参考訳(メタデータ) (2025-08-06T18:44:40Z) - Learning Unified System Representations for Microservice Tail Latency Prediction [8.532290784939967]
マイクロサービスアーキテクチャは、スケーラブルなクラウドネイティブアプリケーションを構築するためのデファクトスタンダードになっています。
従来のアプローチでは、要求毎のレイテンシメトリクスに依存しており、過渡的なノイズに非常に敏感です。
我々は,トラフィック側とリソース側の機能を明確に分離し,モデル化するディープラーニングネットワークであるUSRFNetを提案する。
論文 参考訳(メタデータ) (2025-08-03T07:46:23Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。