論文の概要: Using Machine Learning to Detect Fraudulent SMSs in Chichewa
- arxiv url: http://arxiv.org/abs/2502.16947v1
- Date: Mon, 24 Feb 2025 08:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:52.680144
- Title: Using Machine Learning to Detect Fraudulent SMSs in Chichewa
- Title(参考訳): 機械学習によるチチェワの不正SMSの検出
- Authors: Amelia Taylor, Amoss Robert,
- Abstract要約: 本稿では,アフリカの主要言語であるチチェワにおけるSMS不正検出のための最初のデータセットについて紹介する。
我々は,ChichewaにおけるSMSを不正あるいは不正として分類するための機械学習アルゴリズムを用いた実験について報告する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: SMS enabled fraud is of great concern globally. Building classifiers based on machine learning for SMS fraud requires the use of suitable datasets for model training and validation. Most research has centred on the use of datasets of SMSs in English. This paper introduces a first dataset for SMS fraud detection in Chichewa, a major language in Africa, and reports on experiments with machine learning algorithms for classifying SMSs in Chichewa as fraud or non-fraud. We answer the broader research question of how feasible it is to develop machine learning classification models for Chichewa SMSs. To do that, we created three datasets. A small dataset of SMS in Chichewa was collected through primary research from a segment of the young population. We applied a label-preserving text transformations to increase its size. The enlarged dataset was translated into English using two approaches: human translation and machine translation. The Chichewa and the translated datasets were subjected to machine classification using random forest and logistic regression. Our findings indicate that both models achieved a promising accuracy of over 96% on the Chichewa dataset. There was a drop in performance when moving from the Chichewa to the translated dataset. This highlights the importance of data preprocessing, especially in multilingual or cross-lingual NLP tasks, and shows the challenges of relying on machine-translated text for training machine learning models. Our results underscore the importance of developing language specific models for SMS fraud detection to optimise accuracy and performance. Since most machine learning models require data preprocessing, it is essential to investigate the impact of the reliance on English-specific tools for data preprocessing.
- Abstract(参考訳): SMSが有効になった詐欺は、世界中で大きな関心事だ。
SMS詐欺のための機械学習に基づく分類器を構築するには、モデルのトレーニングと検証に適切なデータセットを使用する必要がある。
ほとんどの研究は、英語におけるSMSのデータセットの使用に焦点を当てている。
本稿では,アフリカの主要言語であるChichewaにおけるSMS不正検出のための最初のデータセットを紹介し,ChichewaにおけるSMSを不正または非詐欺として分類するための機械学習アルゴリズムを用いた実験について報告する。
我々は、Chichewa SMSの機械学習分類モデルを開発することがどの程度可能かという、より広範な研究課題に答える。
そのために、私たちは3つのデータセットを作成しました。
チチェワにおけるSMSの小さなデータセットは、若年層の一部からの最初の研究を通じて収集された。
ラベル保存テキスト変換を適用し,そのサイズを拡大した。
拡大されたデータセットは、人間の翻訳と機械翻訳の2つのアプローチで英語に翻訳された。
チチェワと翻訳されたデータセットはランダム森林とロジスティック回帰を用いて機械分類された。
以上の結果から,いずれのモデルも,Chichewaデータセット上で96%以上の有望な精度を達成したことが示唆された。
Chichewaから翻訳されたデータセットに移行すると、パフォーマンスが低下した。
これは、特に多言語または多言語NLPタスクにおけるデータ前処理の重要性を強調し、機械学習モデルをトレーニングするために機械翻訳されたテキストに依存することの課題を示している。
この結果から,SMS不正検出のための言語特化モデルの開発が,精度と性能を最適化することの重要性が示唆された。
多くの機械学習モデルは、データ前処理を必要とするため、データ前処理のための英語固有のツールに依存することの影響を調べることが不可欠である。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Lost in Translation, Found in Spans: Identifying Claims in Multilingual
Social Media [40.26888469822391]
クレームスパン識別(CSI)は、ファクトチェックパイプラインの重要なステップである。
ジャーナリストや人間のファクトチェッカーにとって重要な問題だが、いまだに過小評価されている問題である。
我々は、多くのソーシャルメディアプラットフォームから5つのインド語と英語で収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成します。
論文 参考訳(メタデータ) (2023-10-27T15:28:12Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Multilingual Code-Switching for Zero-Shot Cross-Lingual Intent
Prediction and Slot Filling [29.17194639368877]
ランダムな翻訳による多言語コードスイッチングを用いたモノリンガルソースデータの拡張手法を提案する。
multiatis++のベンチマークデータセットの実験では、インテントタスクの精度が+4.2%、スロットタスクが+1.8%に向上した。
本研究では,英語およびハイチクレオール語でスロット充填を行う新しいヒトアノテーション付きツイートデータセットを用いた危機情報学への応用について述べる。
論文 参考訳(メタデータ) (2021-03-13T21:05:09Z) - Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech [5.609443065827995]
非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
論文 参考訳(メタデータ) (2020-04-05T02:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。