論文の概要: Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study
- arxiv url: http://arxiv.org/abs/2603.11358v1
- Date: Wed, 11 Mar 2026 22:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.705909
- Title: Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study
- Title(参考訳): 機械学習とトランスフォーマーモデルを用いた多言語財務き裂検出:バングラ・イングリッシュ研究
- Authors: Mohammad Shihab Uddin, Md Hasibul Amin, Nusrat Jahan Ema, Bushra Uddin, Tanvir Ahmed, Arif Hassan Zidan,
- Abstract要約: 正当かつ不正な財務メッセージからなるデータセットを用いた多言語バングラ英語設定における金融不正検出について検討する。
リニアSVMは91.59パーセントの精度と91.30%のF1スコアで最高のパフォーマンスを達成している。
この結果から,多言語不正検出に競争力を持つ古典的機械学習が依然として有効であることが示唆された。
- 参考スコア(独自算出の注目度): 0.24489885996663996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial fraud detection has emerged as a critical research challenge amid the rapid expansion of digital financial platforms. Although machine learning approaches have demonstrated strong performance in identifying fraudulent activities, most existing research focuses exclusively on English-language data, limiting applicability to multilingual contexts. Bangla (Bengali), despite being spoken by over 250 million people, remains largely unexplored in this domain. In this work, we investigate financial fraud detection in a multilingual Bangla-English setting using a dataset comprising legitimate and fraudulent financial messages. We evaluate classical machine learning models (Logistic Regression, Linear SVM, and Ensemble classifiers) using TF-IDF features alongside transformer-based architectures. Experimental results using 5-fold stratified cross-validation demonstrate that Linear SVM achieves the best performance with 91.59 percent accuracy and 91.30 percent F1 score, outperforming the transformer model (89.49 percent accuracy, 88.88 percent F1) by approximately 2 percentage points. The transformer exhibits higher fraud recall (94.19 percent) but suffers from elevated false positive rates. Exploratory analysis reveals distinctive patterns: scam messages are longer, contain urgency-inducing terms, and frequently include URLs (32 percent) and phone numbers (97 percent), while legitimate messages feature transactional confirmations and specific currency references. Our findings highlight that classical machine learning with well-crafted features remains competitive for multilingual fraud detection, while also underscoring the challenges posed by linguistic diversity, code-mixing, and low-resource language constraints.
- Abstract(参考訳): デジタル金融プラットフォームの急速な拡大に伴い、金融詐欺検出は重要な研究課題として浮上している。
機械学習のアプローチは不正行為を識別する上で強いパフォーマンスを示しているが、既存の研究のほとんどは英語のデータにのみ焦点を絞っており、多言語文脈に適用性を制限する。
バングラ語(ベンガル語)は、2億5000万人以上の人々が話しているが、この領域では明らかにされていない。
本研究では,正当かつ不正な財務メッセージからなるデータセットを用いて,多言語バングラ英語設定における金銭的不正検出について検討する。
従来の機械学習モデル(ロジスティック回帰、線形SVM、エンサンブル分類器)を変換器ベースアーキテクチャとともにTF-IDF機能を用いて評価する。
5倍層状クロスバリデーションを用いた実験の結果、線形SVMは91.59パーセントの精度と91.30パーセントのF1スコアで最高のパフォーマンスを達成し、トランスフォーマーモデル(89.49パーセントの精度、88.88パーセントのF1)を約2ポイント上回った。
この変圧器は高い詐欺リコール(94.19パーセント)を示すが、偽陽性率の上昇に悩まされている。
詐欺メッセージは長く、緊急時に引き起こされる用語を含み、URL(32%)と電話番号(97%)を頻繁に含んでいるのに対して、正当なメッセージはトランザクション確認と特定の通貨参照を備えている。
また,言語多様性,コードミキシング,低リソース言語の制約によって生じる課題も強調した。
関連論文リスト
- When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents [3.4992819560032267]
視覚言語モデル(VLM)は、多くの文書理解タスクでよく機能するが、専門の非英語領域での信頼性は未定である。
本稿では、フランスの財務文書理解を評価するための最初のマルチモーダルベンチマークであるMultimodal Finance Evalを紹介する。
データセットには、テキスト抽出、テーブル理解、チャート解釈、マルチターン会話推論にまたがる1,204のエキスパート検証された質問が含まれている。
論文 参考訳(メタデータ) (2026-02-11T00:04:56Z) - Reinforcement Learning of Large Language Models for Interpretable Credit Card Fraud Detection [29.14690532256978]
本稿では,強化学習(Reinforcement Learning, RL)を用いて,不正検出タスクのための軽量言語モデルの訓練後処理を行う手法を提案する。
我々は,グループシーケンスポリシー最適化(GSPO)アルゴリズムとルールベースの報酬システムを組み合わせて,実生活におけるトランザクションデータセットに基づいて,さまざまなサイズの言語モデルを微調整する。
実験により,本手法の有効性を実証し,学習後の言語モデルを用いて,保持試験データに対するF1スコアの大幅な改善を実現した。
論文 参考訳(メタデータ) (2026-01-09T06:56:27Z) - Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning [58.355275813623685]
本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。
低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。
しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-04T04:29:12Z) - Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - POSTER: A Multi-Signal Model for Detecting Evasive Smishing [2.7039386580759666]
本研究では,国別セマンティックタグ,構造パターンタグ,文字レベルのスタイリスティックキュー,文脈語句埋め込みを組み合わせたマルチチャネルスマイシング検出モデルを提案する。
私たちは、24,086個のスマイシングサンプルを含む5つのデータセットで84,000以上のメッセージをキュレートし、レバーベリングしました。
我々の統合アーキテクチャは、97.89%の精度、0.963のF1スコア、99.73%のAUCを達成し、多種多様な言語的および構造的手がかりを捉え、シングルストリームモデルより優れている。
論文 参考訳(メタデータ) (2025-05-23T12:45:34Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - FinLLM-B: When Large Language Models Meet Financial Breakout Trading [13.465954970263502]
FinLLM-Bはファイナンシャル・ブレークアウト検出のための主要な言語モデルである。
我々は,大規模言語モデル,すなわち多段階構造のための新しいフレームワークを開発した。
GPT-3.5と比較して、FinLLM-Bは回答の平均精度を49.97%改善し、多段構造は9.72%改善に寄与した。
論文 参考訳(メタデータ) (2024-02-12T10:04:07Z) - Towards Faster k-Nearest-Neighbor Machine Translation [51.866464707284635]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
本手法は,翻訳品質をわずかに低下させることなく,kNN検索のオーバーヘッドを最大53%削減する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。