論文の概要: Shedding New Light on the Language of the Dark Web
- arxiv url: http://arxiv.org/abs/2204.06885v1
- Date: Thu, 14 Apr 2022 11:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:09:47.432765
- Title: Shedding New Light on the Language of the Dark Web
- Title(参考訳): ダークウェブの言語に新しい光を放つ
- Authors: Youngjin Jin, Eugene Jang, Yongjae Lee, Seungwon Shin, Jin-Woo Chung
- Abstract要約: 本稿では,テキスト解析に適した10000のWebドキュメントからなるDark WebデータセットであるCoDAを紹介する。
我々はダークウェブの言語学的分析を行い、ダークウェブとサーフェスウェブのテキスト的差異について検討する。
また,ダークウェブページ分類の各種手法の性能評価を行った。
- 参考スコア(独自算出の注目度): 28.203247249201535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hidden nature and the limited accessibility of the Dark Web, combined
with the lack of public datasets in this domain, make it difficult to study its
inherent characteristics such as linguistic properties. Previous works on text
classification of Dark Web domain have suggested that the use of deep neural
models may be ineffective, potentially due to the linguistic differences
between the Dark and Surface Webs. However, not much work has been done to
uncover the linguistic characteristics of the Dark Web. This paper introduces
CoDA, a publicly available Dark Web dataset consisting of 10000 web documents
tailored towards text-based Dark Web analysis. By leveraging CoDA, we conduct a
thorough linguistic analysis of the Dark Web and examine the textual
differences between the Dark Web and the Surface Web. We also assess the
performance of various methods of Dark Web page classification. Finally, we
compare CoDA with an existing public Dark Web dataset and evaluate their
suitability for various use cases.
- Abstract(参考訳): 隠れた性質とダークウェブのアクセシビリティが制限されており、このドメインでの公開データセットの欠如と相まって、言語特性などの固有の特性の研究は困難である。
ダークウェブドメインのテキスト分類に関する以前の研究は、ダークウェブとサーフェスウェブの言語的違いのため、ディープ・ニューラル・モデルの使用は効果がない可能性を示唆している。
しかし、ダークウェブの言語的特徴を明らかにするための作業はあまり行われていない。
本稿では,テキストベースのDark Web分析に適した10000のWebドキュメントからなる,公開可能なDark WebデータセットであるCoDAを紹介する。
我々は,CoDAを活用してダークウェブの言語学的解析を行い,ダークウェブとサーフェスウェブのテキスト的差異について検討する。
また,ダークウェブページ分類の各種手法の性能評価を行った。
最後に、CoDAを既存のパブリックなDark Webデータセットと比較し、さまざまなユースケースに対するそれらの適合性を評価する。
関連論文リスト
- AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Integrating Dark Pattern Taxonomies [0.0]
過去10年間で、悪質で挑発的なデザインが複数のドメインに拡張された。
本稿では,ネットワーク解析ツールや手法に頼って,有向グラフとして既存の要素を合成する。
そうすることで、ダークパターンの相互接続性は、コミュニティ検出によってより明確になる。
論文 参考訳(メタデータ) (2024-02-26T17:26:31Z) - DarkBERT: A Language Model for the Dark Side of the Internet [26.28825428391132]
我々はDark Webデータに基づいて事前訓練された言語モデルであるDarkBERTを紹介する。
ダークウェブの極端な語彙的・構造的多様性に対処するために、DarkBERTのトレーニングに使用されるテキストデータをフィルタリングし、コンパイルするために要するステップについて述べる。
評価の結果,DarkBERTは現在の言語モデルより優れており,今後のダークウェブ研究に有用な情報源となる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-15T12:23:10Z) - Linguistic Dead-Ends and Alphabet Soup: Finding Dark Patterns in
Japanese Apps [10.036312061637764]
日本市場で人気のモバイルアプリを200本分析した。
ほとんどのアプリはダークパターンで、1アプリあたり平均3.9であることがわかった。
我々は「翻訳」と「Alphabet Soup」の形式で「言語的デッドエンディング」という新しい暗黒パターンのクラスを特定した。
論文 参考訳(メタデータ) (2023-04-22T08:22:32Z) - ReDDIT: Regret Detection and Domain Identification from Text [62.997667081978825]
本稿では,Redditテキストのデータセットを,Regret by Action,Regret by Inaction,No Regretの3つのクラスに分類した。
以上の結果から,Reddit利用者は過去の行動,特に関係領域における後悔を表明しがちであることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:41:57Z) - VeriDark: A Large-Scale Benchmark for Authorship Verification on the
Dark Web [25.00969884543201]
VeriDarkは3つの大規模オーサシップ検証データセットと1つのオーサシップ識別データセットで構成されるベンチマークです。
3つのデータセット上での競合NLPベースラインの評価を行い、これらのアプローチの限界をよりよく理解するために予測の解析を行う。
論文 参考訳(メタデータ) (2022-07-07T17:57:11Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Counteracting Dark Web Text-Based CAPTCHA with Generative Adversarial
Learning for Proactive Cyber Threat Intelligence [15.71648511138197]
テキストベースのCAPTCHAは、ダークウェブにおいて最も一般的で禁止されているアンチクローリング対策である。
既存のCAPTCHAの破壊手法は、ダークウェブの課題を克服するのに困難である。
我々は,暗黒ウェブデータ収集を容易にするために,暗黒ウェブCAPTCHAの自動切断のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-08T09:53:31Z) - Lighting the Darkness in the Deep Learning Era [118.35081853500411]
低照度画像強調(LLIE)は、照明の弱い環境で撮影された画像の知覚や解釈性を改善することを目的としている。
この分野における最近の進歩は、ディープラーニングベースのソリューションが支配的です。
アルゴリズム分類から未解決の未解決問題まで,さまざまな側面をカバーする包括的な調査を行う。
論文 参考訳(メタデータ) (2021-04-21T19:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。