論文の概要: Cybersecurity Data Extraction from Common Crawl
- arxiv url: http://arxiv.org/abs/2602.22218v1
- Date: Sun, 14 Dec 2025 23:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.680167
- Title: Cybersecurity Data Extraction from Common Crawl
- Title(参考訳): コモンクローラーからのサイバーセキュリティデータ抽出
- Authors: Ashim Mahara,
- Abstract要約: Alpha-Rootは、コミュニティ検出を使用してCommon CrawlのWebグラフから収集された、サイバーセキュリティに焦点を当てたデータセットである。
DeepSeekMathのような反復的なコンテンツ表示アプローチとは異なり、私たちは、信頼された20のシードドメインから、Webグラフから直接品質ドメインをマイニングします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Alpha-Root is a cybersecurity-focused dataset collected in a single shot from the Common Crawl web graph using community detection. Unlike iterative content-scoring approaches like DeepSeekMath, we mine quality domains directly from the web graph, starting from just 20 trusted seed domains.
- Abstract(参考訳): Alpha-Rootは、コミュニティ検出を使用してCommon CrawlのWebグラフから収集された、サイバーセキュリティに焦点を当てたデータセットである。
DeepSeekMathのような反復的なコンテンツ表示アプローチとは異なり、私たちは、信頼された20のシードドメインから、Webグラフから直接品質ドメインをマイニングします。
関連論文リスト
- CrediBench: Building Web-Scale Network Datasets for Information Integrity [27.562742270396086]
CrediBenchは、時間的Webグラフを構築するための大規模データ処理パイプラインである。
我々のアプローチは、一般的な誤情報領域の動的進化を捉えている。
本稿では,このグラフスナップショットを用いた実験から,信頼度を学習するための構造的およびWebページコンテンツ信号の強度を実証する。
論文 参考訳(メタデータ) (2025-09-27T14:42:48Z) - GRAND: Graph Release with Assured Node Differential Privacy [3.7346004746366384]
我々は,ノードレベルの差分プライバシーと構造的特性の確保を確保しつつ,ネットワーク全体を解放する最初のネットワークリリース機構であるGRANDを提案する。
このアプローチの有効性は、合成データセットと実世界のデータセットの両方に関する広範な実験を通じて評価される。
論文 参考訳(メタデータ) (2025-07-01T03:39:08Z) - COARSE: Collaborative Pseudo-Labeling with Coarse Real Labels for Off-Road Semantic Segmentation [49.267650162344765]
COARSEはオフロードセマンティックセグメンテーションのための半教師付きドメイン適応フレームワークである。
我々は、協調的な擬似ラベル戦略によって強化された、補完的なピクセルレベルとパッチレベルのデコーダでドメインギャップをブリッジする。
論文 参考訳(メタデータ) (2025-03-05T22:25:54Z) - Domain Expansion and Boundary Growth for Open-Set Single-Source Domain Generalization [70.02187124865627]
オープンソースの単一ソースドメインの一般化は、単一のソースドメインを使用して、未知のターゲットドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
本稿では,領域拡大と境界成長に基づく新しい学習手法を提案する。
提案手法は,いくつかの領域横断画像分類データセットにおいて,大幅な改善と最先端性能を実現することができる。
論文 参考訳(メタデータ) (2024-11-05T09:08:46Z) - DomURLs_BERT: Pre-trained BERT-based Model for Malicious Domains and URLs Detection and Classification [4.585051136007553]
本稿では,疑わしい/悪意のあるドメインやURLを検知・分類するBERTベースのエンコーダであるDomURLs_BERTを紹介する。
提案したエンコーダは、最先端のキャラクタベースのディープラーニングモデルと、サイバーセキュリティにフォーカスしたBERTモデルを、複数のタスクやデータセットにわたって上回る。
論文 参考訳(メタデータ) (2024-09-13T18:59:13Z) - Dynamic Proxy Domain Generalizes the Crowd Localization by Better Binary Segmentation [62.50761444656475]
群衆のローカライゼーションは、イメージ内の各インスタンスの正確な位置を予測することを目的としている。
現在の高度な手法では、混雑予測に対処する画素単位のバイナリ分類が提案されている。
ドメインシフト下で学習者を一般化するための動的プロキシドメイン(DPD)手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T08:58:57Z) - WEDGE: Web-Image Assisted Domain Generalization for Semantic
Segmentation [72.88657378658549]
本稿では,Web画像の多様性を一般化可能なセマンティックセグメンテーションに活用したWEb画像支援ドメインゲネラライゼーション手法を提案する。
また,ウェブクローラー画像のスタイルをトレーニング中のトレーニング画像に注入する手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T05:19:58Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - DNS Typo-squatting Domain Detection: A Data Analytics & Machine Learning
Based Approach [9.006364242523249]
ドメイン名システム(DNS)は、IP解決のための標準メカニズムであるため、現在のIPベースのネットワークにおいて重要なコンポーネントである。
この攻撃を検出することは、企業秘密の脅威となり、情報を盗み、詐欺を犯すために使用できるため、特に重要です。
本稿では,型付け脆弱性に取り組むために,機械学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-12-25T16:51:30Z) - Cluster, Split, Fuse, and Update: Meta-Learning for Open Compound Domain
Adaptive Semantic Segmentation [102.42638795864178]
セマンティックセグメンテーションのための原則的メタラーニングに基づくOCDAアプローチを提案する。
対象ドメインを複数のサブターゲットドメインに,教師なしの方法で抽出した画像スタイルでクラスタリングする。
その後、メタラーニングがデプロイされ、スタイルコードに条件付きでサブターゲットドメイン固有の予測を融合するように学習される。
モデルに依存しないメタラーニング(MAML)アルゴリズムにより,モデルをオンライン更新することを学び,一般化をさらに改善する。
論文 参考訳(メタデータ) (2020-12-15T13:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。