論文の概要: IDTraffickers: An Authorship Attribution Dataset to link and connect
Potential Human-Trafficking Operations on Text Escort Advertisements
- arxiv url: http://arxiv.org/abs/2310.05484v1
- Date: Mon, 9 Oct 2023 07:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 06:59:02.877654
- Title: IDTraffickers: An Authorship Attribution Dataset to link and connect
Potential Human-Trafficking Operations on Text Escort Advertisements
- Title(参考訳): IDTraffickers:テキストエスコルト上での人的トラヒック操作のリンクと接続のためのオーサリング属性データセット
- Authors: Vageesh Saxena, Benjamin Bashpole, Gijs Van Dijck, Gerasimos Spanakis
- Abstract要約: 人身売買(Human trafficking、HT)は、脆弱な個人に影響を及ぼす世界的な問題であり、基本的人権を侵害している。
87,595のテキスト広告と5,244のベンダーラベルからなる広範なデータセットであるIDTraffickersを紹介します。
閉集合分類環境でのマクロF1スコア0.8656のDeCLUTR小モデルを訓練する。
- 参考スコア(独自算出の注目度): 8.479659578608235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human trafficking (HT) is a pervasive global issue affecting vulnerable
individuals, violating their fundamental human rights. Investigations reveal
that a significant number of HT cases are associated with online advertisements
(ads), particularly in escort markets. Consequently, identifying and connecting
HT vendors has become increasingly challenging for Law Enforcement Agencies
(LEAs). To address this issue, we introduce IDTraffickers, an extensive dataset
consisting of 87,595 text ads and 5,244 vendor labels to enable the
verification and identification of potential HT vendors on online escort
markets. To establish a benchmark for authorship identification, we train a
DeCLUTR-small model, achieving a macro-F1 score of 0.8656 in a closed-set
classification environment. Next, we leverage the style representations
extracted from the trained classifier to conduct authorship verification,
resulting in a mean r-precision score of 0.8852 in an open-set ranking
environment. Finally, to encourage further research and ensure responsible data
sharing, we plan to release IDTraffickers for the authorship attribution task
to researchers under specific conditions, considering the sensitive nature of
the data. We believe that the availability of our dataset and benchmarks will
empower future researchers to utilize our findings, thereby facilitating the
effective linkage of escort ads and the development of more robust approaches
for identifying HT indicators.
- Abstract(参考訳): 人身売買(HT)は、脆弱な個人に影響を及ぼし、基本的人権を侵害する世界的な問題である。
調査の結果、多くのhtケースがオンライン広告(ads)、特にエスコートマーケットに関連していることが明らかとなった。
その結果、法執行機関(LEA)では、HTベンダーの特定と接続がますます困難になっている。
この問題に対処するために、87,595のテキスト広告と5,244のベンダーラベルからなる広範なデータセットであるIDTraffickersを導入し、オンラインのエスコート市場で潜在的HTベンダーの検証と識別を可能にします。
著者識別のためのベンチマークを確立するため, 閉集合分類環境においてマクロF1スコア0.8656を達成するDeCLUTR小モデルを訓練する。
次に、訓練した分類器から抽出したスタイル表現を利用して著者確認を行い、オープンセットのランキング環境で平均r-precisionスコア0.8852を得る。
最後に、さらなる研究を奨励し、責任あるデータ共有を確保するため、データの繊細な性質を考慮して、特定の条件下で研究者に著者帰属タスクのためのIDTraffickerをリリースする計画である。
当社のデータセットとベンチマークが利用可能になれば、将来の研究者が調査結果を活用できるようになると信じており、エスコート広告の効果的なリンクや、ht指標を特定するためのより堅牢なアプローチの開発が容易になる。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - FAIIR: Building Toward A Conversational AI Agent Assistant for Youth Mental Health Service Provision [14.213869958852792]
FAIIR(Frontline Assistant: Issue Identification and Recommendation)を開発した。
主な目的は、CRの認知的負担を軽減し、課題識別の精度を高め、会話後の管理作業を効率化することである。
その結果,FAIIRの平均AUCROCは94%,サンプル平均F1スコアは64%,サンプル平均リコールスコアは81%であった。
論文 参考訳(メタデータ) (2024-05-28T19:54:46Z) - A Customer Level Fraudulent Activity Detection Benchmark for Enhancing Machine Learning Model Research and Evaluation [0.4681661603096334]
本研究では,顧客レベルの不正検出に特化して設計された構造化データセットを含むベンチマークを提案する。
このベンチマークは、ユーザの機密性を確保するために厳格なプライバシーガイドラインに準拠しているだけでなく、顧客中心の機能をカプセル化することによって、豊富な情報ソースを提供する。
論文 参考訳(メタデータ) (2024-04-23T04:57:44Z) - Language Models Can Reduce Asymmetry in Information Markets [100.38786498942702]
我々は、言語モデルを利用した知的エージェントが外部参加者に代わって情報を売買する、オープンソースのシミュレートされたデジタルマーケットプレースを紹介した。
このマーケットプレースを実現する中心的なメカニズムはエージェントの二重機能であり、特権情報の品質を評価する能力を持つと同時に、忘れる能力も備えている。
適切に行動するためには、エージェントは合理的な判断をし、生成されたサブクエリを通じて市場を戦略的に探索し、購入した情報から回答を合成する必要がある。
論文 参考訳(メタデータ) (2024-03-21T14:48:37Z) - TMID: A Comprehensive Real-world Dataset for Trademark Infringement
Detection in E-Commerce [31.035507977793046]
毎年、eコマースプラットフォームは、商標侵害によりかなりの損失を被る。
このギャップに対処するため,商店登録における商標侵害を検出する新しいデータセットTMIDを導入した。
論文 参考訳(メタデータ) (2023-12-08T15:31:39Z) - Closing the Loop: Testing ChatGPT to Generate Model Explanations to
Improve Human Labelling of Sponsored Content on Social Media [4.322339935902437]
世界中の規制団体は、ソーシャルメディア上のインフルエンサーマーケティングの透明性を確保するための努力を強化している。
スポンサーコンテンツを自動的に検出するタスクは、このような規制を大規模に監視し、実施することを目的としている。
本稿では,tagGPTを用いてアノテーションプロセスを拡張し,関連する特徴や簡潔な説明文として認識するフレーズを提案する。
論文 参考訳(メタデータ) (2023-06-08T11:29:58Z) - Fair-CDA: Continuous and Directional Augmentation for Group Fairness [48.84385689186208]
公正な制約を課すための詳細なデータ拡張戦略を提案する。
グループ間の感性のある特徴の遷移経路のモデルを正規化することにより、グループフェアネスを実現することができることを示す。
提案手法はデータ生成モデルを仮定せず,精度と公平性の両方に優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-04-01T11:23:00Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Improving Limited Labeled Dialogue State Tracking with Self-Supervision [91.68515201803986]
既存の対話状態追跡(DST)モデルには多くのラベル付きデータが必要である。
本稿では,潜在的一貫性の維持と対話行動のモデル化という,自己指導型の2つの目的について検討する。
提案する自己教師型信号は,1%のラベル付きデータのみを使用する場合,関節ゴール精度を8.95%向上させることができる。
論文 参考訳(メタデータ) (2020-10-26T21:57:42Z) - Active Fairness Instead of Unawareness [2.878329609343415]
多くの現行の法定基準では、「無意識による公正」を達成するために、データからセンシティブな属性を取り除くことを求めている。
高い相関属性を持つ大きなデータセットが一般的であるビッグデータの時代において、このアプローチは時代遅れである、と我々は主張する。
論文 参考訳(メタデータ) (2020-09-14T08:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。