論文の概要: Implementing Active Learning in Cybersecurity: Detecting Anomalies in
Redacted Emails
- arxiv url: http://arxiv.org/abs/2303.00870v1
- Date: Wed, 1 Mar 2023 23:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:48:00.959751
- Title: Implementing Active Learning in Cybersecurity: Detecting Anomalies in
Redacted Emails
- Title(参考訳): サイバーセキュリティにおけるアクティブラーニングの実践: 改ざんメールにおける異常検出
- Authors: Mu-Huan (Miles) Chung, Lu Wang, Sharon (Siyuan) Li, Yuhong (Alisha)
Yang, Calvin Giang, Khilan Jerath, Abhay Raman, David Lie, Mark Chignell
- Abstract要約: 本研究は,電子メールの異常検出に対するアクティブラーニングの適用に関する研究成果について述べる。
我々は、異なるAL戦略とそれらがモデル性能に与える影響を評価する。
- 参考スコア(独自算出の注目度): 6.991977458152551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on email anomaly detection has typically relied on specially
prepared datasets that may not adequately reflect the type of data that occurs
in industry settings. In our research, at a major financial services company,
privacy concerns prevented inspection of the bodies of emails and attachment
details (although subject headings and attachment filenames were available).
This made labeling possible anomalies in the resulting redacted emails more
difficult. Another source of difficulty is the high volume of emails combined
with the scarcity of resources making machine learning (ML) a necessity, but
also creating a need for more efficient human training of ML models. Active
learning (AL) has been proposed as a way to make human training of ML models
more efficient. However, the implementation of Active Learning methods is a
human-centered AI challenge due to potential human analyst uncertainty, and the
labeling task can be further complicated in domains such as the cybersecurity
domain (or healthcare, aviation, etc.) where mistakes in labeling can have
highly adverse consequences. In this paper we present research results
concerning the application of Active Learning to anomaly detection in redacted
emails, comparing the utility of different methods for implementing active
learning in this context. We evaluate different AL strategies and their impact
on resulting model performance. We also examine how ratings of confidence that
experts have in their labels can inform AL. The results obtained are discussed
in terms of their implications for AL methodology and for the role of experts
in model-assisted email anomaly screening.
- Abstract(参考訳): 電子メール異常検出の研究は、通常、業界設定で発生するデータの種類を適切に反映しない特殊なデータセットに依存している。
当社の研究では、大手金融サービス会社において、プライバシーに関する懸念が、電子メールや添付ファイルの詳細(主題の見出しと添付ファイル名があったが)のボディの検査を妨げました。
これにより、改ざんされたメールのラベリングがより困難になった。
もうひとつの難題は、大量の電子メールと、機械学習(ML)を必須とするリソースの不足が組み合わさって、MLモデルのより効率的な人的トレーニングの必要性も生み出していることだ。
MLモデルの人間のトレーニングをより効率的にする手段として、アクティブラーニング(AL)が提案されている。
しかし、アクティブラーニング手法の実装は、潜在的な人間アナリストの不確実性による人間中心のai課題であり、ラベル付け作業は、ラベル付けの誤りが極めて悪影響をもたらすサイバーセキュリティドメイン(あるいは医療、航空など)のような領域においてさらに複雑になる可能性がある。
本稿では,この文脈で能動学習を実践するための異なる手法の有用性を比較し,メールの異常検出に能動学習を適用した研究結果について述べる。
異なるal戦略とそのモデル性能への影響を評価した。
また、専門家がレーベルに持つ信頼度の評価がalにどのように影響するかについても検討する。
その結果,al方法論とモデル支援メール異常スクリーニングにおける専門家の役割について考察した。
関連論文リスト
- SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection [0.0]
フィッシングは、ソーシャルエンジニアリングを使ってユーザーを騙して機密情報を明らかにすることで、組織にとって大きな脅威となる。
本稿では,Large Language Models (LLMs) の顕著な性能を,テキスト分類のような特定のタスクに活用できるかどうかを検討する。
LLMがいかにして説得力のあるフィッシングメールを生成するかを示し、詐欺を見つけるのを難しくする。
論文 参考訳(メタデータ) (2024-06-10T13:13:39Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Maximizing Information Gain in Privacy-Aware Active Learning of Email Anomalies [7.770699559625337]
我々は情報ゲイン最大化データを用いた能動学習の強化手法を開発した。
提案手法の有効性は,人間アナリストによる電子メールの再実行のみをラベル付けできる現実的な環境で評価する。
論文 参考訳(メタデータ) (2024-05-13T02:58:59Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Unsupervised Learning of Distributional Properties can Supplement Human
Labeling and Increase Active Learning Efficiency in Anomaly Detection [0.0]
メールによるデータの流出は、多くの組織にとって深刻なサイバーセキュリティの脅威だ。
Active Learningは、データを効率的にラベル付けするための有望なアプローチである。
稀な異常の事例を含むラベル付けされた事例のバッチを生成するための適応型ALサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T22:14:30Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - Addressing contingency in algorithmic (mis)information classification:
Toward a responsible machine learning agenda [0.9659642285903421]
データサイエンティストは、モデルトレーニングとテストに使用される「真実の情報源の客観性、信頼性、正当性」にスタンスを取る必要がある。
彼らの報告された高い正確さと性能にもかかわらず、ML駆動のモデレーションシステムは、オンラインの公開討論を形作り、不正な検閲や偽の信念の強化のような下流のネガティブな影響を生み出す可能性がある。
論文 参考訳(メタデータ) (2022-10-05T17:34:51Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - Learning with Weak Supervision for Email Intent Detection [56.71599262462638]
本稿では,メールの意図を検出するために,ユーザアクションを弱い監視源として活用することを提案する。
メール意図識別のためのエンドツーエンドの堅牢なディープニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-05-26T23:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。