論文の概要: TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
- arxiv url: http://arxiv.org/abs/2503.24115v3
- Date: Wed, 02 Apr 2025 13:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:20:39.961937
- Title: TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
- Title(参考訳): TeleAntiFraud-28k:Telecom Fraud検出のための音声テキストスローシンキングデータセット
- Authors: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang,
- Abstract要約: 本稿では,TeleAntiFraud-28kについて紹介する。
本データセットは,(1)自動音声認識(ASR)で書き起こされた通話記録(匿名化元音声)を用いたプライバシ保存テキストトラス・サンプル生成,(2)大規模言語モデル(LLM)に基づく自己指示サンプリングによるシナリオカバレッジの拡大,の3つの戦略により構築されている。
生成されたデータセットは、厳密に処理された28,511の音声テキストペアを含み、不正推論のための詳細なアノテーションを完備している。
- 参考スコア(独自算出の注目度): 16.3518216479454
- License:
- Abstract: The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.
- Abstract(参考訳): テレコム不正の検出は、音声信号と推論指向のテキスト分析を統合する高品質なマルチモーダルトレーニングデータがないため、重大な課題に直面している。
このギャップに対処するために、TeleAntiFraud-28kを紹介します。
提案するデータセットは,(1)自動音声認識(ASR)で書き起こされた通話記録(匿名化元音声)を用いたプライバシ保存テキストトラス・サンプル生成,(2)テキスト音声(TTS)モデル再生による現実の一貫性の確保,(2)大規模言語モデル(LLM)ベースの自己指示サンプリングによるシナリオカバレッジの拡大,(3)事前定義された通信シナリオと不正なタイポロジーによる新興不正行為をシミュレートするマルチエージェント対逆合成,の3つの戦略によって構築される。
生成されたデータセットは、厳密に処理された28,511の音声テキストペアを含み、不正推論のための詳細なアノテーションを完備している。
データセットはシナリオ分類、不正検出、不正タイプ分類の3つのタスクに分けられる。
さらに,TeleAntiFraud-Benchという,データセットからサンプルサンプルを比例した標準評価ベンチマークを構築し,テレコム不正検出タスクにおけるモデル性能の系統的テストを容易にする。
我々はまた、コミュニティ主導のデータセット拡張を可能にするために、データ処理フレームワークをオープンソース化しながら、ハイブリッドリアルタイム/合成データに基づいてトレーニングされた生産最適化型微調整(SFT)モデルにも貢献する。
この研究は、データプライバシとシナリオの多様性における重要な課題に対処しながら、マルチモーダルなアンチファンド研究の基盤となるフレームワークを確立する。
プロジェクトはhttps://github.com/JimmyMa99/TeleAntiFraud.comでリリースされる。
関連論文リスト
- Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention [45.31956918333587]
マルチモーダルな感情分析では、テキストデータの収集はビデオやオーディオよりも難しいことが多い。
我々は,テキストのモダリティがなくても,マルチモーダルな感情情報を統合する頑健なモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T07:59:41Z) - A Federated Learning Approach for Multi-stage Threat Analysis in Advanced Persistent Threat Campaigns [25.97800399318373]
高度な永続的脅威(APT)のようなマルチステージの脅威は、データを盗み、インフラストラクチャを破壊することによって深刻なリスクを引き起こす。
APTは新たな攻撃ベクトルを使用し、ネットワークの存在を隠蔽することでシグネチャベースの検出を回避する。
本稿では,APTを検出するための3段階の非教師付きフェデレーション学習(FL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T03:34:41Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks [64.02867484165476]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Fraud Dataset Benchmark and Applications [25.184342958800293]
Fraud dataset Benchmark(FDB)は、不正検出に特化した公開データセットのコンパイルである。
FDBには、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションに対するローンのデフォルトリスクの推定など、さまざまな不正関連タスクが含まれている。
FDB用のPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫したAPIを提供する。
論文 参考訳(メタデータ) (2022-08-30T17:35:39Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。