論文の概要: Kunlun Anomaly Troubleshooter: Enabling Kernel-Level Anomaly Detection and Causal Reasoning for Large Model Distributed Inference
- arxiv url: http://arxiv.org/abs/2511.05978v1
- Date: Sat, 08 Nov 2025 11:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.69165
- Title: Kunlun Anomaly Troubleshooter: Enabling Kernel-Level Anomaly Detection and Causal Reasoning for Large Model Distributed Inference
- Title(参考訳): Kunlun Anomaly Troubleshooter:大規模モデル分散推論のためのカーネルレベル異常検出と因果推論の実現
- Authors: Yuyang Liu, Jingjing Cai, Jiayi Ren, Peng Zhou, Danyang Zhang, Yin Du, Shijian Li,
- Abstract要約: 大規模モデル分散推論(LMDI)の異常なトラブルシューティングは依然として重要な課題である。
LMDIに適した最初の異常トラブルシューティングフレームワークであるKunlun Anomaly Troubleshooter(KAT)を紹介する。
- 参考スコア(独自算出の注目度): 15.448826510384302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly troubleshooting for large model distributed inference (LMDI) remains a critical challenge. Resolving anomalies such as inference performance degradation or latency jitter in distributed system demands significant manual efforts from domain experts, resulting in extremely time-consuming diagnosis processes with relatively low accuracy. In this paper, we introduce Kunlun Anomaly Troubleshooter (KAT), the first anomaly troubleshooting framework tailored for LMDI. KAT addresses this problem through two core innovations. First, KAT exploits the synchronicity and consistency of GPU workers, innovatively leverages function trace data to precisely detect kernel-level anomalies and associated hardware components at nanosecond resolution. Second, KAT integrates these detection results into a domain-adapted LLM, delivering systematic causal reasoning and natural language interpretation of complex anomaly symptoms. Evaluations conducted in Alibaba Cloud Service production environment indicate that KAT achieves over 0.884 precision and 0.936 recall in anomaly detection, providing detail anomaly insights that significantly narrow down the diagnostic scope and improve both the efficiency and success rate of troubleshooting.
- Abstract(参考訳): 大規模モデル分散推論(LMDI)の異常なトラブルシューティングは依然として重要な課題である。
分散システムにおける推論性能劣化や遅延ジッタなどの異常を解消するためには、ドメインの専門家によるかなりの手作業が必要である。
本稿では,LMDI に適した最初の異常トラブルシューティングフレームワークである Kunlun Anomaly Trouble shooter (KAT) を紹介する。
KATは2つのコアイノベーションを通じてこの問題に対処する。
まず、KATはGPUワーカーの同期性と一貫性を利用し、ファンクショントレースデータを利用して、ナノ秒の解像度でカーネルレベルの異常と関連するハードウェアコンポーネントを正確に検出する。
第二に、KATはこれらの検出結果をドメイン適応LLMに統合し、体系的な因果推論と複雑な異常症状の自然言語解釈を提供する。
Alibaba Cloud Serviceのプロダクション環境で実施された評価によると、KATは異常検出において0.884の精度と0.936のリコールを達成し、診断範囲を大幅に縮小し、トラブルシューティングの効率と成功率の両方を改善する詳細な異常洞察を提供する。
関連論文リスト
- CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Enhanced Fault Detection and Cause Identification Using Integrated Attention Mechanism [0.3749861135832073]
本研究では、双方向長短期記憶(BiLSTM)ニューラルネットワークと統合注意機構(IAM)を統合することにより、テネシー・イーストマン・プロセス(TEP)内の障害検出と原因特定のための新しい手法を提案する。
IAMは、スケールドドット製品に対する注意力、残留注意力、動的注意力を組み合わせて、TEP障害検出に不可欠な複雑なパターンや依存関係をキャプチャする。
BiLSTMネットワークはこれらの特徴を双方向に処理して長距離依存関係をキャプチャし、IAMは出力をさらに改善し、故障検出結果が改善された。
論文 参考訳(メタデータ) (2024-07-31T12:01:57Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - ImDiffusion: Imputed Diffusion Models for Multivariate Time Series
Anomaly Detection [44.21198064126152]
我々はImDiffusionという新しい異常検出フレームワークを提案する。
ImDiffusionは時系列計算と拡散モデルを組み合わせて、正確で堅牢な異常検出を実現する。
我々はImDiffusionの性能をベンチマークデータセットの広範な実験により評価する。
論文 参考訳(メタデータ) (2023-07-03T04:57:40Z) - Are we certain it's anomalous? [57.729669157989235]
時系列における異常検出は、高度に非線形な時間的相関のため、異常は稀であるため、複雑なタスクである。
本稿では,異常検出(HypAD)におけるハイパボリック不確実性の新しい利用法を提案する。
HypADは自己指導で入力信号を再構築する。
論文 参考訳(メタデータ) (2022-11-16T21:31:39Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - HURRA! Human readable router anomaly detection [11.564082628014638]
HURRAは、ネットワークトラブルシューティングの過程で人間のオペレーターが費やす時間を短縮することを目的としている。
異常検出アルゴリズムの後に接続される2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-07-23T08:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。