論文の概要: Improving Problem Identification via Automated Log Clustering using
Dimensionality Reduction
- arxiv url: http://arxiv.org/abs/2009.03257v1
- Date: Mon, 7 Sep 2020 17:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 03:31:30.394219
- Title: Improving Problem Identification via Automated Log Clustering using
Dimensionality Reduction
- Title(参考訳): 次元化による自動ログクラスタリングによる問題同定の改善
- Authors: Carl Martin Rosenberg and Leon Moonen
- Abstract要約: 我々は、同じ理由で失敗したランニングログを自動的にグループ化することで、より効果的に扱えるようにする。
システムログの問題を特定するために開発されたアプローチは、継続的デプロイメントログの問題を特定するために一般化されますか?
クラスタリングアルゴリズムでクラスタをマージするための基準は、品質にどのように影響しますか?
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal: We consider the problem of automatically grouping logs of runs that
failed for the same underlying reasons, so that they can be treated more
effectively, and investigate the following questions: (1) Does an approach
developed to identify problems in system logs generalize to identifying
problems in continuous deployment logs? (2) How does dimensionality reduction
affect the quality of automated log clustering? (3) How does the criterion used
for merging clusters in the clustering algorithm affect clustering quality?
Method: We replicate and extend earlier work on clustering system log files
to assess its generalization to continuous deployment logs. We consider the
optional inclusion of one of these dimensionality reduction techniques:
Principal Component Analysis (PCA), Latent Semantic Indexing (LSI), and
Non-negative Matrix Factorization (NMF). Moreover, we consider three
alternative cluster merge criteria (Single Linkage, Average Linkage, and
Weighted Linkage), in addition to the Complete Linkage criterion used in
earlier work. We empirically evaluate the 16 resulting configurations on
continuous deployment logs provided by our industrial collaborator.
Results: Our study shows that (1) identifying problems in continuous
deployment logs via clustering is feasible, (2) including NMF significantly
improves overall accuracy and robustness, and (3) Complete Linkage performs
best of all merge criteria analyzed.
Conclusions: We conclude that problem identification via automated log
clustering is improved by including dimensionality reduction, as it decreases
the pipeline's sensitivity to parameter choice, thereby increasing its
robustness for handling different inputs.
- Abstract(参考訳): 目標: 同じ理由で失敗した実行ログを自動的にグループ化する問題を考えることで、より効果的に処理できるようにし、以下の質問を検証します。 1)システムログの問題を識別するために開発されたアプローチは、継続的デプロイメントログの問題を一般化するのでしょうか?
2)次元の縮小は自動ログクラスタリングの質にどのように影響するか?
3)クラスタリングアルゴリズムにおけるクラスタ統合の基準はクラスタリング品質にどのように影響するか?
メソッド: クラスタリングシステムログファイルの以前の作業を複製して拡張し、継続的デプロイメントログへの一般化を評価する。
主成分分析(PCA)、潜在セマンティックインデクシング(LSI)、非負行列分解(NMF)の1つを任意に含むことを検討する。
さらに,従来の作業で用いられた完全結合基準に加えて,クラスタマージ基準(シングルリンジ,平均リンジ,重み付きリンジ)を3つ検討した。
産業協力者が提供した継続的デプロイメントログの16の構成を実証的に評価する。
結果:(1)クラスタ化による継続的デプロイメントログの問題を同定することは可能であり,(2)nmfを含む場合,全体的な正確性と堅牢性が著しく向上し,(3)完全リンクは解析されたすべてのマージ基準の中で最も優れている。
結論: 自動ログクラスタリングによる問題同定は, パラメータ選択に対するパイプラインの感度を低下させ, 異なる入力に対するロバスト性を高めることにより, 次元の低減を含むことにより改善される。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Towards a connection between the capacitated vehicle routing problem and the constrained centroid-based clustering [1.3927943269211591]
実用的なランタイムにおける車両ルーティングの効率的な解決は、デリバリ管理企業にとって重要な課題である。
本稿では,CVRPとCCBC(Constrainedid-Based Clustering)の理論的および実験的関係について検討する。
提案するフレームワークは,3つの段階から構成される。第1段階では,制約付きセントロイドベースのクラスタリングアルゴリズムが,ユーザの実現可能なクラスタを生成する。
論文 参考訳(メタデータ) (2024-03-20T22:24:36Z) - Sample-Efficient Clustering and Conquer Procedures for Parallel
Large-Scale Ranking and Selection [0.0]
並列コンピューティング環境では、相関ベースのクラスタリングは$mathcalO(p)$サンプル複雑性低減率を達成することができる。
ニューラルアーキテクチャ検索のような大規模AIアプリケーションでは、スクリーニングなしバージョンの手順が、サンプル効率の点で完全に順序づけられたベンチマークを驚くほど上回っている。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Near-Optimal Correlation Clustering with Privacy [37.94795032297396]
相関クラスタリングは教師なし学習における中心的な問題である。
本稿では,相関クラスタリング問題と証明可能なプライバシ保証のための,シンプルで効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-02T22:30:19Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Applying Semi-Automated Hyperparameter Tuning for Clustering Algorithms [0.0]
本研究では,クラスタリング問題に対する半自動ハイパーパラメータチューニングのためのフレームワークを提案する。
グリッド検索を使用して一連のグラフを開発し、メトリクスを解釈しやすくし、より効率的なドメイン固有評価に使用できる。
予備的な結果は、内部メトリクスが、開発されたクラスタのセマンティックな品質をキャプチャできないことを示している。
論文 参考訳(メタデータ) (2021-08-25T05:48:06Z) - Rethinking Graph Autoencoder Models for Attributed Graph Clustering [1.2158275183241178]
グラフオートエンコーダ(GAE)は、共同クラスタリングと埋め込み学習に使用されている。
本研究では,雑音の多いクラスタリングの課題を学習し,隣接行列を再構築する際の累積誤差について検討する。
ノイズの多いクラスタリングの代入に対して保護機構をトリガーするサンプリング演算子を$Xi$で提案する。
論文 参考訳(メタデータ) (2021-07-19T00:00:35Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。