論文の概要: Identification and Anonymization of Named Entities in Unstructured Information Sources for Use in Social Engineering Detection
- arxiv url: http://arxiv.org/abs/2604.09016v1
- Date: Fri, 10 Apr 2026 06:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.718595
- Title: Identification and Anonymization of Named Entities in Unstructured Information Sources for Use in Social Engineering Detection
- Title(参考訳): 社会工学検出に用いる非構造化情報ソースにおける名前付きエンティティの同定と匿名化
- Authors: Carlos Jimeno Miguel, Raul Orduna, Francesco Zola,
- Abstract要約: 本研究は、一般刑法典10/1995などの規則に従い、サイバー犯罪分析のためのデータセットを作成することの課題に対処する。
テレグラムから情報を集めるシステムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study addresses the challenge of creating datasets for cybercrime analysis while complying with the requirements of regulations such as the General Data Protection Regulation (GDPR) and Organic Law 10/1995 of the Penal Code. To this end, a system is proposed for collecting information from the Telegram platform, including text, audio, and images; the implementation of speech-to-text transcription models incorporating signal enhancement techniques; and the evaluation of different Named Entity Recognition (NER) solutions, including Microsoft Presidio and AI models designed using a transformer-based architecture. Experimental results indicate that Parakeet achieves the best performance in audio transcription, while the proposed NER solutions achieve the highest f1-score values in detecting sensitive information. In addition, anonymization metrics are presented that allow evaluation of the preservation of structural coherence in the data, while simultaneously guaranteeing the protection of personal information and supporting cybersecurity research within the current legal framework.
- Abstract(参考訳): 本研究は、一般データ保護規則(GDPR)や刑法10/1995などの規則を遵守しつつ、サイバー犯罪分析のためのデータセットを作成するという課題に対処する。
この目的のために、テキスト、音声、画像を含むTelegramプラットフォームから情報を収集するシステム、信号強調技術を組み込んだ音声からテキストへの書き起こしモデルの実装、Microsoft PresidioやAIモデルなど、異なる名前付きエンティティ認識(NER)ソリューションの評価を提案する。
実験結果から、Parakeetは音声の書き起こしにおいて最高の性能を達成し、提案したNERソリューションは機密情報の検出において最も高いf1スコア値を得ることがわかった。
さらに、個人情報の保護と現在の法的枠組みにおけるサイバーセキュリティ研究の支援を同時に保証しつつ、データの構造的一貫性の維持を評価する匿名化指標も提示する。
関連論文リスト
- CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - Enhancing Binary Encoded Crime Linkage Analysis Using Siamese Network [1.4853846317417458]
本稿では,複雑な犯罪データから潜在表現を学習し,相関関係を明らかにする枠組みを提案する。
その結果,高度な機械学習手法はリンク精度を大幅に向上させ,従来の手法よりも最大9%改善できることがわかった。
論文 参考訳(メタデータ) (2025-11-10T21:54:58Z) - SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Enhancing Privacy in Semantic Communication over Wiretap Channels leveraging Differential Privacy [51.028047763426265]
セマンティック通信(SemCom)は,タスク関連情報に着目して伝送効率を向上させる。
セマンティックリッチなデータをセキュアでないチャネルで送信すると、プライバシのリスクが生じる。
本稿では,セマンティックなセマンティックな特徴を保護するために,差分プライバシー機構を統合した新しいSemComフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-23T08:42:44Z) - Cryptanalysis via Machine Learning Based Information Theoretic Metrics [58.96805474751668]
本稿では,機械学習アルゴリズムの新たな2つの応用法を提案する。
これらのアルゴリズムは、監査設定で容易に適用でき、暗号システムの堅牢性を評価することができる。
本稿では,DES,RSA,AES ECBなど,IND-CPAの安全でない暗号化スキームを高精度に識別する。
論文 参考訳(メタデータ) (2025-01-25T04:53:36Z) - Trustworthy AI: Securing Sensitive Data in Large Language Models [0.0]
大規模言語モデル(LLM)は、堅牢なテキスト生成と理解を可能にすることで自然言語処理(NLP)を変革した。
本稿では, 機密情報の開示を動的に制御するために, 信頼機構をLCMに組み込むための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-26T19:02:33Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Enhancing Intrusion Detection In Internet Of Vehicles Through Federated
Learning [0.0]
フェデレートされた学習は、複数のパーティが協力し、生データを共有せずに共有モデルを学習することを可能にする。
本稿では,CIC-IDS 2017データセットを用いたIoT(Internet of Vehicles)における侵入検知のための連合学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T04:04:20Z) - PAC-Based Formal Verification for Out-of-Distribution Data Detection [4.406331747636832]
本研究は、VAEの符号化プロセスを用いて、OOD検出に基づくほぼ正しい(PAC)保証を行う。
ユーザ定義の信頼性で不慣れなインスタンスに検出エラーをバインドするために使用される。
論文 参考訳(メタデータ) (2023-04-04T07:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。