論文の概要: VeriDark: A Large-Scale Benchmark for Authorship Verification on the
Dark Web
- arxiv url: http://arxiv.org/abs/2207.03477v1
- Date: Thu, 7 Jul 2022 17:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:48:05.984276
- Title: VeriDark: A Large-Scale Benchmark for Authorship Verification on the
Dark Web
- Title(参考訳): veridark: ダークウェブ上のオーサシップ検証のための大規模ベンチマーク
- Authors: Andrei Manolache, Florin Brad, Antonio Barbalau, Radu Tudor Ionescu,
Marius Popescu
- Abstract要約: VeriDarkは3つの大規模オーサシップ検証データセットと1つのオーサシップ識別データセットで構成されるベンチマークです。
3つのデータセット上での競合NLPベースラインの評価を行い、これらのアプローチの限界をよりよく理解するために予測の解析を行う。
- 参考スコア(独自算出の注目度): 25.00969884543201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The DarkWeb represents a hotbed for illicit activity, where users communicate
on different market forums in order to exchange goods and services. Law
enforcement agencies benefit from forensic tools that perform authorship
analysis, in order to identify and profile users based on their textual
content. However, authorship analysis has been traditionally studied using
corpora featuring literary texts such as fragments from novels or fan fiction,
which may not be suitable in a cybercrime context. Moreover, the few works that
employ authorship analysis tools for cybercrime prevention usually employ
ad-hoc experimental setups and datasets. To address these issues, we release
VeriDark: a benchmark comprised of three large scale authorship verification
datasets and one authorship identification dataset obtained from user activity
from either Dark Web related Reddit communities or popular illicit Dark Web
market forums. We evaluate competitive NLP baselines on the three datasets and
perform an analysis of the predictions to better understand the limitations of
such approaches. We make the datasets and baselines publicly available at
https://github.com/bit-ml/VeriDark
- Abstract(参考訳): darkwebは違法行為の温床であり、ユーザーは商品やサービスを交換するためにさまざまなマーケットフォーラムでコミュニケーションをとる。
法執行機関は、テキストコンテンツに基づいてユーザーを特定し、プロファイルするために、著者の分析を行う法医学的ツールの恩恵を受ける。
しかし、著者分析は伝統的に、小説の断片やファンフィクションなど、サイバー犯罪の文脈には適さない文体を特徴とするコーパスを用いて研究されてきた。
さらに、サイバー犯罪防止のための著者分析ツールを使用する数少ない作品は、通常アドホックな実験的な設定とデータセットを採用している。
この3つの大規模オーサシップ検証データセットと、Dark Web関連Redditコミュニティまたは人気のある不正なDark Webマーケットフォーラムから得られた1つのオーサシップ識別データセットで構成されるベンチマークである。
3つのデータセットにおける競合nlpベースラインを評価し,その限界をよりよく理解するために予測分析を行う。
データセットとベースラインはhttps://github.com/bit-ml/VeriDarkで公開しています。
関連論文リスト
- A Public and Reproducible Assessment of the Topics API on Real Data [1.1510009152620668]
Topics API for the Webは、サードパーティのクッキーに代わる、Googleのプライバシ向上のためのAPIだ。
以前の作業の結果、ユーティリティとプライバシの両方をトレードオフするトピクスの能力に関する議論が続いている。
本稿では,Topicsがすべてのユーザに対して同じプライバシー保証を提供していない,情報漏洩が時間とともに悪化する,という実データについて述べる。
論文 参考訳(メタデータ) (2024-03-28T17:03:44Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - LG4AV: Combining Language Models and Graph Neural Networks for Author
Verification [0.11421942894219898]
本稿では,著者検証のための言語モデルとグラフニューラルネットワークを組み合わせたLG4AVを提案する。
トレーニング済みのトランスフォーマーアーキテクチャで利用可能なテキストを直接供給することで、我々のモデルは手作りのスタイル幾何学的特徴を一切必要としない。
我々のモデルは、検証プロセスに関して意味のある著者間の関係から恩恵を受けることができる。
論文 参考訳(メタデータ) (2021-09-03T12:45:28Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z) - Birdspotter: A Tool for Analyzing and Labeling Twitter Users [12.558187319452657]
BirdspotterはTwitterユーザーの分析とラベル付けを行うツールだ。
Birdspotter.mlは、計算されたメトリクスの探索的なビジュアライゼーションである。
我々は、完全なボット検出器に鳥のポッターを訓練する方法を示します。
論文 参考訳(メタデータ) (2020-12-04T02:25:07Z) - Linked Credibility Reviews for Explainable Misinformation Detection [1.713291434132985]
本稿では,誤情報検出に協力する分散ボットのネットワーク構築に使用できるCR(Credibility Reviews)のコアコンセプトに基づくアーキテクチャを提案する。
CRは、(i)Webコンテンツのグラフを構成するためのビルディングブロックとして機能し、(ii)既存の信頼性信号 --fact-checked claimsとWebサイトの評判評価 -- を構成し、(iii)自動的に計算されたレビューを生成する。
このアーキテクチャは、.orgへの軽量な拡張と、意味的類似性と姿勢検出のための汎用的なNLPタスクを提供するサービスの上に実装されている。
論文 参考訳(メタデータ) (2020-08-28T16:55:43Z) - MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文 参考訳(メタデータ) (2020-06-22T14:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。