論文の概要: Short Text Classification Approach to Identify Child Sexual Exploitation
Material
- arxiv url: http://arxiv.org/abs/2011.01113v2
- Date: Fri, 13 Nov 2020 09:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:55:24.488778
- Title: Short Text Classification Approach to Identify Child Sexual Exploitation
Material
- Title(参考訳): 児童の性行為を識別するための短いテキスト分類手法
- Authors: Mhd Wesam Al-Nabki, Eduardo Fidalgo, Enrique Alegre, Roc\'io
Alaiz-Rodr\'iguez
- Abstract要約: 本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
- 参考スコア(独自算出の注目度): 4.415977307120616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Producing or sharing Child Sexual Exploitation Material (CSEM) is a serious
crime fought vigorously by Law Enforcement Agencies (LEAs). When an LEA seizes
a computer from a potential producer or consumer of CSEM, they need to analyze
the suspect's hard disk's files looking for pieces of evidence. However, a
manual inspection of the file content looking for CSEM is a time-consuming
task. In most cases, it is unfeasible in the amount of time available for the
Spanish police using a search warrant. Instead of analyzing its content,
another approach that can be used to speed up the process is to identify CSEM
by analyzing the file names and their absolute paths. The main challenge for
this task lies behind dealing with short text distorted deliberately by the
owners of this material using obfuscated words and user-defined naming
patterns. This paper presents and compares two approaches based on short text
classification to identify CSEM files. The first one employs two independent
supervised classifiers, one for the file name and the other for the path, and
their outputs are later on fused into a single score. Conversely, the second
approach uses only the file name classifier to iterate over the file's absolute
path. Both approaches operate at the character n-grams level, while binary and
orthographic features enrich the file name representation, and a binary
Logistic Regression model is used for classification. The presented file
classifier achieved an average class recall of 0.98. This solution could be
integrated into forensic tools and services to support Law Enforcement Agencies
to identify CSEM without tackling every file's visual content, which is
computationally much more highly demanding.
- Abstract(参考訳): 児童セクシャル・エクスプロイテーション・マテリアル(英: Child Sexual Exploitation Materials、CSEM)は、法律執行機関(LEA)が積極的に行う犯罪である。
LEAがCSEMの潜在的な生産者や消費者からコンピュータを奪取する際には、容疑者のハードディスクのファイルを分析して証拠を探す必要がある。
しかし,CSEMを検索するファイル内容の手動検査は時間を要する作業である。
ほとんどの場合、捜索令状を使ってスペイン警察が利用できる時間内では不可能である。
コンテンツを解析する代わりに、プロセスのスピードアップに使える別のアプローチは、ファイル名とその絶対パスを分析してCSEMを特定することである。
このタスクの主な課題は、難解な単語とユーザー定義の命名パターンを使用して、この資料の所有者が故意に歪んだ短いテキストを扱うことである。
本稿では,CSEMファイルを識別するための短いテキスト分類に基づく2つのアプローチを提示し,比較する。
1つは2つの独立した教師付き分類器、もう1つはファイル名、もう1つはパスで、出力は後に1つのスコアに融合される。
逆に、第2のアプローチはファイル名分類器のみを使用してファイルの絶対パスを反復する。
どちらのアプローチも文字 n-grams レベルで動作し、バイナリと正書法の特徴はファイル名表現を強化し、バイナリロジスティック回帰モデルは分類に使用される。
提示されたファイル分類器は平均0.98のクラスリコールを達成した。
このソリューションは、すべてのファイルの視覚的コンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートする法医学ツールやサービスに統合することができる。
関連論文リスト
- Document Type Classification using File Names [7.130525292849283]
迅速な文書分類は、デジタル法医学や大規模メディア分類といった、時間に敏感ないくつかの応用において重要である。
重厚なディープラーニングモデルに依存する従来のアプローチは、膨大な入力データセットよりも高い推論時間のために不足している。
本稿では、TF-IDF特徴抽出に基づくトークン化手法と組み合わせ、軽量教師付き学習モデルを用いた手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T01:42:19Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。
本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain [0.0]
ThreatCrawlと呼ばれる新しい集中クローラが提案されている。
BiBERTベースのモデルを使用して文書を分類し、クローリングパスを動的に適応する。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-24T09:53:33Z) - Adversarial Networks and Machine Learning for File Classification [0.0]
検査中のファイルの種類を正しく特定することは、法医学的な調査の重要な部分である。
本稿では、逆学習された機械学習ニューラルネットワークを用いてファイルの真の型を決定することを提案する。
半教師付き生成敵ネットワーク(SGAN)は,11種類のファイルの分類において97.6%の精度を達成した。
論文 参考訳(メタデータ) (2023-01-27T19:40:03Z) - Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Content-Based Textual File Type Detection at Scale [0.0]
プログラミング言語の検出は、大規模なソースコードの分析において一般的なニーズです。
我々は,テキストファイルの内容のみに基づいて,ソフトウェアコードベースでよく見られるファイルの種類を正確に検出する問題を考える。
論文 参考訳(メタデータ) (2021-01-21T09:08:42Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。