論文の概要: Real-PGDN: A Two-level Classification Method for Full-Process Recognition of Newly Registered Pornographic and Gambling Domain Names
- arxiv url: http://arxiv.org/abs/2511.22215v1
- Date: Thu, 27 Nov 2025 08:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.460047
- Title: Real-PGDN: A Two-level Classification Method for Full-Process Recognition of Newly Registered Pornographic and Gambling Domain Names
- Title(参考訳): Real-PGDN: 新たに登録されたポルノドメイン名とギャンブルドメイン名の自動認識のための2段階分類法
- Authors: Hao Wang, Yingshuo Wang, Junang Gan, Yanan Cheng, Jinshuai Zhang,
- Abstract要約: 本稿では,リアルタイムのクローリングをタイムリーかつ包括的に行うReal-PGDN法を提案する。
NRD2024データセットは、新たに登録された1500,000のドメイン名に対して、20日間にわたって連続的な検出情報を含む。
また,本手法は登録後に使用が遅れたPGDNの予測精度を70%以上維持することを示した。
- 参考スコア(独自算出の注目度): 3.2844736169962245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online pornography and gambling have consistently posed regulatory challenges for governments, threatening both personal assets and privacy. Therefore, it is imperative to research the classification of the newly registered Pornographic and Gambling Domain Names (PGDN). However, scholarly investigation into this topic is limited. Previous efforts in PGDN classification pursue high accuracy using ideal sample data, while others employ up-to-date data from real-world scenarios but achieve lower classification accuracy. This paper introduces the Real-PGDN method, which accomplishes a complete process of timely and comprehensive real-data crawling, feature extraction with feature-missing tolerance, precise PGDN classification, and assessment of application effects in actual scenarios. Our two-level classifier, which integrates CoSENT (BERT-based), Multilayer Perceptron (MLP), and traditional classification algorithms, achieves a 97.88% precision. The research process amasses the NRD2024 dataset, which contains continuous detection information over 20 days for 1,500,000 newly registered domain names across 6 directions. Results from our case study demonstrate that this method also maintains a forecast precision of over 70% for PGDN that are delayed in usage after registration.
- Abstract(参考訳): オンラインポルノとギャンブルは、個人資産とプライバシーの両方を脅かす、政府にとって一貫して規制上の課題を提起している。
そのため、新たに登録されたPornographic and Gambling Domain Names (PGDN) の分類を研究することが不可欠である。
しかし、この話題に関する学術的な調査は限られている。
PGDN分類における従来の取り組みは、理想的なサンプルデータを用いて高精度を追求する一方で、現実のシナリオから最新のデータを用いるものもあるが、分類精度は低い。
本稿では,リアルタイムのクローリングをタイムリーかつ包括的に行うReal-PGDN法,機能欠き耐性のある特徴抽出,厳密なPGDN分類,実際のシナリオにおける応用効果の評価を行う。
CoSENT(BERTベース)、Multilayer Perceptron(MLP)、従来の分類アルゴリズムを統合した2レベル分類器は97.88%の精度を実現している。
NRD2024データセットは、6方向に1,500,000の新規登録ドメイン名に対して20日間にわたって連続的な検出情報を含む。
また,本手法は登録後に使用が遅れたPGDNの予測精度を70%以上維持することを示した。
関連論文リスト
- Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations [49.671779378073886]
無線規制分野における質問応答について検討する。
本稿では,通信事業者固有のレトリーバル拡張生成(RAG)パイプラインを提案する。
当社のアプローチは,テスト対象モデル全体の生成精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-09-11T17:43:42Z) - MetaGen Blended RAG: Unlocking Zero-Shot Precision for Specialized Domain Question-Answering [0.0]
本稿では, セマンティック検索機能を強化した新しいエンタープライズ検索手法である「MetaGen Blended RAG」を紹介する。
重要な概念,トピック,頭字語を活用することで,メタデータに富んだセマンティックインデックスと,ハイブリッドクエリの強化を実現した。
バイオメディカルなPubMedQAデータセットでは、MetaGen Blended RAGが82%の検索精度と77%のRAG精度を実現し、以前のゼロショットRAGベンチマークを上回りました。
論文 参考訳(メタデータ) (2025-05-23T17:18:45Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - DUQGen: Effective Unsupervised Domain Adaptation of Neural Rankers by Diversifying Synthetic Query Generation [8.661419320202787]
MS-MARCOのような大規模タスク固有のトレーニングデータで事前訓練された最先端のニューラルローダーは、ドメイン適応なしで様々なランク付けタスクに強いパフォーマンスを示すことが示されている(ゼロショットとも呼ばれる)。
本稿では,従来の文献における重要なギャップに対処する,ランク付けのための教師なしドメイン適応手法であるDUQGenを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:50:42Z) - Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets [7.6631083158336715]
本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。
完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
論文 参考訳(メタデータ) (2023-12-13T20:15:29Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection [134.05510658882278]
Cyclic-Bootstrap Labeling (CBL) は、弱制御されたオブジェクト検出パイプラインである。
様々な改良モジュールを活用するために、重み付けされた指数移動平均戦略を使用する。
重み付きアンサンブル型教師ネットワークの出力を活用するために, クラス別ランキング蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-11T07:57:17Z) - Goal Recognition as a Deep Learning Task: the GRNet Approach [0.0]
自動計画において、観察の痕跡からエージェントのゴールを認識することは、多くのアプリケーションにとって重要な課題である。
本稿では,機械学習によって対処される分類課題としてゴール認識を定式化する手法について検討する。
GRNetと呼ばれる私たちのアプローチは、主に、特定のドメインでそれを解決する方法を学ぶことによって、ゴール認識をより正確かつ高速にすることを目的としています。
論文 参考訳(メタデータ) (2022-10-05T16:42:48Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Collaborative Training between Region Proposal Localization and
Classification for Domain Adaptive Object Detection [121.28769542994664]
オブジェクト検出のためのドメイン適応は、ラベル付きデータセットからラベル付きデータセットへの検出を適応させようとする。
本稿では,地域提案ネットワーク (RPN) と地域提案分類器 (RPC) が,大きなドメインギャップに直面した場合の転送可能性が大きく異なることを初めて明らかにする。
論文 参考訳(メタデータ) (2020-09-17T07:39:52Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。