論文の概要: Code Word Detection in Fraud Investigations using a Deep-Learning
Approach
- arxiv url: http://arxiv.org/abs/2103.09606v1
- Date: Wed, 17 Mar 2021 12:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:10:49.360175
- Title: Code Word Detection in Fraud Investigations using a Deep-Learning
Approach
- Title(参考訳): 深層学習を用いたフラッド調査における単語検出
- Authors: Youri van der Zee, Jan C. Scholtes, Marcel Westerhoud, Julien Rossi
- Abstract要約: 我々は、テキストマイニングと機械学習技術を適用した調査プロセスの迅速化にフレームワークを使用する。
私たちは、このフレームワークのコンポーネントの1つに焦点を当てています:詐欺師によるコードワードの使用の識別。
本稿では,最先端のBERTモデルが他の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In modern litigation, fraud investigators often face an overwhelming number
of documents that must be reviewed throughout a matter. In the majority of
legal cases, fraud investigators do not know beforehand, exactly what they are
looking for, nor where to find it. In addition, fraudsters may use deception to
hide their behaviour and intentions by using code words. Effectively, this
means fraud investigators are looking for a needle in the haystack without
knowing what the needle looks like.
As part of a larger research program, we use a framework to expedite the
investigation process applying text-mining and machine learning techniques. We
structure this framework using three well-known methods in fraud
investigations: (i) the fraud triangle (ii) the golden ("W") investigation
questions, and (iii) the analysis of competing hypotheses. With this framework,
it is possible to automatically organize investigative data, so it is easier
for investigators to find answers to typical investigative questions.
In this research, we focus on one of the components of this framework: the
identification of the usage of code words by fraudsters. Here for, a novel
(annotated) synthetic data set is created containing such code words, hidden in
normal email communication. Subsequently, a range of machine learning
techniques are employed to detect such code words. We show that the
state-of-the-art BERT model significantly outperforms other methods on this
task. With this result, we demonstrate that deep neural language models can
reliably (F1 score of 0.9) be applied in fraud investigations for the detection
of code words.
- Abstract(参考訳): 現代の訴訟では、詐欺捜査員はしばしば、事件全体を通してレビューしなければならない圧倒的な数の文書に直面している。
ほとんどの訴訟では、詐欺捜査員は事前に、何を正確に探しているのか、どこで見つけるのかを知らない。
さらに、詐欺師は偽装を使って、コードワードを使って行動や意図を隠すこともある。
つまり、詐欺捜査員は針がどんなものか知らないまま、干し草の山に針を探しているということだ。
より大きな研究プログラムの一環として,テキストマイニングと機械学習技術を適用した調査プロセスを迅速化するフレームワークを構築した。
この枠組みは,詐欺捜査においてよく知られた3つの手法を用いて構築されている。 (i)詐欺の三角形 (ii)黄金の「W」調査問題 (iii) 競合する仮説の分析である。
この枠組みにより、調査データを自動で整理することが可能であり、研究者が典型的な調査質問に対する回答を見つけるのが容易である。
本研究では,この枠組みの構成要素の一つとして,詐欺師によるコードワードの使用状況の同定に着目する。
ここでは、通常の電子メール通信に隠されたそのようなコードワードを含む新規(注釈付き)合成データセットを作成する。
その後、このようなコードワードを検出するために、さまざまな機械学習技術が使用される。
本稿では,最先端のBERTモデルが他の手法よりも優れていることを示す。
この結果から,ディープニューラルネットワークモデル(F1スコア0.9)が,コードワードの検出のための不正な調査に確実に適用可能であることを示す。
関連論文リスト
- Two-step Automated Cybercrime Coded Word Detection using Multi-level Representation Learning [2.048226951354646]
ソーシャルネットワークサービスプラットフォームでは、犯罪容疑者はコミュニケーションのためにサイバー犯罪コード付き単語を使用する可能性が高い。
本稿では,5種類のAutoEncoderモデルのうちの1つを用いて,サイバー犯罪毎に平均潜時ベクトルを構築する2段階のアプローチを提案する。
2段階のアプローチにより検出されたサイバー犯罪符号化語を深く理解するために,3つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-16T07:18:29Z) - On the Detection of Reviewer-Author Collusion Rings From Paper Bidding [71.43634536456844]
衝突リングは、コンピュータサイエンスカンファレンスのピアレビューシステムに大きな脅威をもたらす。
この問題を解決する1つのアプローチは、操作された入札から衝突するレビュアーを検出することである。
衝突環の検出が可能であるという研究はまだ確立されていない。
論文 参考訳(メタデータ) (2024-02-12T18:12:09Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Textual Data Mining for Financial Fraud Detection: A Deep Learning
Approach [0.0]
本稿では,自然言語処理(以下,NLP)のバイナリ分類タスクを,金融詐欺テキストの分析に活用する深層学習手法を提案する。
私の方法論では、埋め込み層を持つ多層パーセプトロン、Vanilla Recurrent Neural Network(RNN)、Long-Short Term Memory(LSTM)、Gated Recurrent Unit(GRU)など、さまざまな種類のニューラルネットワークモデルが関係しています。
本研究が深層学習,NLP,金融の交差点における研究の進展に寄与するため,私の研究成果は,金融不正検出に重大な影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-05T15:33:10Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Fraud Dataset Benchmark and Applications [25.184342958800293]
Fraud dataset Benchmark(FDB)は、不正検出に特化した公開データセットのコンパイルである。
FDBには、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションに対するローンのデフォルトリスクの推定など、さまざまな不正関連タスクが含まれている。
FDB用のPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫したAPIを提供する。
論文 参考訳(メタデータ) (2022-08-30T17:35:39Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - The Familiarity Hypothesis: Explaining the Behavior of Deep Open Set
Methods [86.39044549664189]
特徴ベクトルデータに対する異常検出アルゴリズムは異常を外れ値として識別するが、外れ値検出はディープラーニングではうまく機能しない。
本論文は, 新規性の有無ではなく, 慣れ親しんだ特徴の欠如を検知しているため, これらの手法が成功するというFamiliarity仮説を提案する。
本論文は,親しみやすさの検出が表現学習の必然的な結果であるかどうかを論じる。
論文 参考訳(メタデータ) (2022-03-04T18:32:58Z) - DFraud3- Multi-Component Fraud Detection freeof Cold-start [50.779498955162644]
コールドスタート(Cold-start)は、新しいユーザの認証に検出システムが失敗したことを指す重要な問題である。
本稿では,各コンポーネントに固有の表現を可能にする異種情報ネットワーク (HIN) としてレビューシステムをモデル化する。
HINとグラフ誘導はカモフラージュ問題(本物のレビュー付き詐欺師)に対処するのに役立ち、これはコールドスタートと組み合わされた場合、すなわち真に最初のレビューを持つ新しい詐欺師がより深刻であることが示されている。
論文 参考訳(メタデータ) (2020-06-10T08:20:13Z) - Applying support vector data description for fraud detection [0.0]
不正検出の主な課題の1つは、複雑で困難な作業である不正サンプルの取得である。
この課題に対処するために,SVDDのような不正サンプルを必要としない一級分類法を適用した。
また,DBSCANの拡張であるREDBSCANを提案する。
論文 参考訳(メタデータ) (2020-05-31T21:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。