論文の概要: APT-ClaritySet: A Large-Scale, High-Fidelity Labeled Dataset for APT Malware with Alias Normalization and Graph-Based Deduplication
- arxiv url: http://arxiv.org/abs/2512.15039v1
- Date: Wed, 17 Dec 2025 03:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.83695
- Title: APT-ClaritySet: A Large-Scale, High-Fidelity Labeled Dataset for APT Malware with Alias Normalization and Graph-Based Deduplication
- Title(参考訳): APT-ClaritySet: エイリアス正規化とグラフベース重複を含むAPTマルウェアのための大規模高忠実ラベル付きデータセット
- Authors: Zhenhao Yin, Hanbing Yan, Huishu Lu, Jing Xiong, Xiangyu Li, Rui Mei, Tianning Zang,
- Abstract要約: 本稿では,脅威アクターのエイリアスを正規化するAPT-ClaritySetとその構築パイプラインについて述べる。
静的解析可能な実行ファイルのサブセットを47.55%削減し、動作的に異なる変種を保持する。
- 参考スコア(独自算出の注目度): 8.77241684063353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale, standardized datasets for Advanced Persistent Threat (APT) research are scarce, and inconsistent actor aliases and redundant samples hinder reproducibility. This paper presents APT-ClaritySet and its construction pipeline that normalizes threat actor aliases (reconciling approximately 11.22\% of inconsistent names) and applies graph-feature deduplication -- reducing the subset of statically analyzable executables by 47.55\% while retaining behaviorally distinct variants. APT-ClaritySet comprises: (i) APT-ClaritySet-Full, the complete pre-deduplication collection with 34{,}363 malware samples attributed to 305 APT groups (2006 - early 2025); (ii) APT-ClaritySet-Unique, the deduplicated release with 25{,}923 unique samples spanning 303 groups and standardized attributions; and (iii) APT-ClaritySet-FuncReuse, a function-level resource that includes 324{,}538 function-reuse clusters (FRCs) enabling measurement of inter-/intra-group sharing, evolution, and tooling lineage. By releasing these components and detailing the alias normalization and scalable deduplication pipeline, this work provides a high-fidelity, reproducible foundation for quantitative studies of APT patterns, evolution, and attribution.
- Abstract(参考訳): 大規模で標準化されたAPT(Advanced Persistent Threat)研究用データセットは少なく、一貫性のないアクターエイリアスと冗長なサンプルは再現性を妨げている。
本稿では,脅威アクターのエイリアスを正規化するAPT-ClaritySetとその構築パイプラインについて述べる。
APT-ClaritySet は
(i) APT-ClaritySet-Full、34{,}363のマルウェアサンプルを305のAPTグループ(2006年~2025年初期)にまとめた完全な事前複製コレクション。
(ii)APT-ClaritySet-Unique、303グループにまたがる25{,}923のユニークなサンプルと標準化された属性を持つ非重複リリース
3) APT-ClaritySet-FuncReuseは、324{,}538関数再利用クラスタ(FRC)を含む関数レベルのリソースで、グループ間の共有、進化、ツーリングの系統の測定を可能にする。
これらのコンポーネントをリリースし、エイリアス正規化と拡張性のある重複パイプラインを詳述することにより、APTパターン、進化、帰属の定量的研究のための高忠実で再現可能な基盤を提供する。
関連論文リスト
- From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models [81.43473418572567]
CTR(Click-Through Rate)予測は、レコメンデーションシステムにおける中核的なタスクである。
本稿では,埋め込み次元の崩壊と情報冗長性に対処する新しい生成フレームワークを提案する。
SFGは埋没崩壊を緩和し,情報冗長性を低減し,性能向上を図っている。
論文 参考訳(メタデータ) (2025-12-16T03:17:18Z) - PISA: Prioritized Invariant Subgraph Aggregation [11.419872258847716]
CIGAは因果的モデリングと情報理論の目的を用いて因果的特徴を捉えた単一の不変部分グラフを抽出する。
SuGArは、サンプルと正則化器を通して多様な不変部分グラフを学び、集約し、堅牢性を改善するが、それでも単純な一様あるいは強欲的な集計に依存している。
PISAは動的多様性に基づくアグリゲーションを導入し、表現を優先順位付けし、サブグラフ表現をより効果的に結合する。
論文 参考訳(メタデータ) (2025-11-27T13:15:36Z) - TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing [56.73004765030206]
STE(Scene Text Editing)は、視覚的一貫性を維持しながら、画像中のテキストを自然に修正することを目的としている。
本稿では,モジュラー属性をアンタングル化したSTEのための新しいフレームワークであるTripleFDSを提案する。
TripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
論文 参考訳(メタデータ) (2025-11-17T14:15:03Z) - Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results [73.98594459933008]
顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
この制限は、公開可能なFASデータセットの不足と多様性の欠如に起因する可能性がある。
制約のない環境で収集された大規模で多様なFASデータセットであるWild Face Anti-Spoofingデータセットを紹介した。
論文 参考訳(メタデータ) (2023-04-12T10:29:42Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。