論文の概要: Identifying meaningful clusters in malware data
- arxiv url: http://arxiv.org/abs/2008.01175v1
- Date: Fri, 31 Jul 2020 12:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:21:23.371771
- Title: Identifying meaningful clusters in malware data
- Title(参考訳): マルウェアデータの意味のあるクラスタの同定
- Authors: Renato Cordeiro de Amorim and Carlos David Lopez Ruiz
- Abstract要約: マルウェアデータは、幅広い濃度の異なる重なり合うクラスタを含む傾向にある。
正規化は、クラスタリングに類似したコントリビューションを持つために、異なる範囲の値で機能を設定することを目的としている。
本稿では,上記の問題に正確に対処する手法を提案する。
- 参考スコア(独自算出の注目度): 8.680676599607125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Finding meaningful clusters in drive-by-download malware data is a
particularly difficult task. Malware data tends to contain overlapping clusters
with wide variations of cardinality. This happens because there can be
considerable similarity between malware samples (some are even said to belong
to the same family), and these tend to appear in bursts. Clustering algorithms
are usually applied to normalised data sets. However, the process of
normalisation aims at setting features with different range values to have a
similar contribution to the clustering. It does not favour more meaningful
features over those that are less meaningful, an effect one should perhaps
expect of the data pre-processing stage.
In this paper we introduce a method to deal precisely with the problem above.
This is an iterative data pre-processing method capable of aiding to increase
the separation between clusters. It does so by calculating the within-cluster
degree of relevance of each feature, and then it uses these as a data rescaling
factor. By repeating this until convergence our malware data was separated in
clear clusters, leading to a higher average silhouette width.
- Abstract(参考訳): ドライブ・バイ・ダウンのマルウェアデータに意味のあるクラスタを見つけることは特に難しい作業である。
マルウェアデータは、幅広い濃度の異なる重なり合うクラスタを含む傾向にある。
これは、マルウェアのサンプルの間にかなり類似している可能性があるためである(いくつかは同一の家系に属すると言われている)。
クラスタリングアルゴリズムは通常、正規化されたデータセットに適用される。
しかし、正規化のプロセスは、クラスタリングに類似した貢献をするために異なる範囲の値で特徴を設定することを目的としている。
意味の薄いものよりも有意義な機能を好まないので、データ前処理の段階を期待すべきだろう。
本稿では,上記の問題に正確に対処する手法を提案する。
クラスタ間の分離を増加させることのできる反復データ前処理方法である。
それぞれの機能のクラスタ内の関連度を計算し、それをデータ再スケーリングファクタとして使用します。
これを収束するまで繰り返すことで、マルウェアデータはクリアなクラスタに分離され、平均的なシルエット幅が増加した。
関連論文リスト
- Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters [5.507296054825372]
高次元データで有意義なグループを見つけることは、データマイニングにおいて重要な課題である。
深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
これらのメソッドの多くは、事前にクラスタの数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
論文 参考訳(メタデータ) (2024-10-12T11:04:10Z) - Spectral Clustering of Categorical and Mixed-type Data via Extra Graph
Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。
データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。
この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文 参考訳(メタデータ) (2024-03-08T20:49:49Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - Deep Visual Attention-Based Transfer Clustering [2.248500763940652]
クラスタリングは、教師なしの最も重要な学習問題と見なすことができる。
イメージクラスタリングは、ドメイン機械学習とコンピュータビジョンにおいて不可欠だが難しい課題である。
本稿では,より少ない変量データ分散を実現するため,既存のディープトランスファークラスタリングの改良について述べる。
論文 参考訳(メタデータ) (2021-07-06T06:26:15Z) - Spectral Clustering with Smooth Tiny Clusters [14.483043753721256]
本稿では,データのスムーズさを初めて考慮した新しいクラスタリングアルゴリズムを提案する。
私たちのキーとなるアイデアは、スムーズなグラフを構成する小さなクラスタをクラスタ化することです。
本稿では,マルチスケールな状況に着目するが,データのスムーズさの考え方はどのクラスタリングアルゴリズムにも確実に拡張できる。
論文 参考訳(メタデータ) (2020-09-10T05:21:20Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z) - Probabilistic Partitive Partitioning (PPP) [0.0]
クラスタリングアルゴリズムは一般に2つの一般的な問題に直面している。
彼らは異なる初期条件で異なる設定に収束する。
クラスタの数は、事前に任意に決めなければならない。
論文 参考訳(メタデータ) (2020-03-09T19:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。