論文の概要: Maximizing Information Gain in Privacy-Aware Active Learning of Email Anomalies
- arxiv url: http://arxiv.org/abs/2405.07440v1
- Date: Mon, 13 May 2024 02:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:54:35.827080
- Title: Maximizing Information Gain in Privacy-Aware Active Learning of Email Anomalies
- Title(参考訳): プライバシーを考慮したメール異常のアクティブラーニングにおける情報ゲインの最大化
- Authors: Mu-Huan Miles Chung, Sharon Li, Jaturong Kongmanee, Lu Wang, Yuhong Yang, Calvin Giang, Khilan Jerath, Abhay Raman, David Lie, Mark Chignell,
- Abstract要約: 我々は情報ゲイン最大化データを用いた能動学習の強化手法を開発した。
提案手法の有効性は,人間アナリストによる電子メールの再実行のみをラベル付けできる現実的な環境で評価する。
- 参考スコア(独自算出の注目度): 7.770699559625337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Redacted emails satisfy most privacy requirements but they make it more difficult to detect anomalous emails that may be indicative of data exfiltration. In this paper we develop an enhanced method of Active Learning using an information gain maximizing heuristic, and we evaluate its effectiveness in a real world setting where only redacted versions of email could be labeled by human analysts due to privacy concerns. In the first case study we examined how Active Learning should be carried out. We found that model performance was best when a single highly skilled (in terms of the labelling task) analyst provided the labels. In the second case study we used confidence ratings to estimate the labeling uncertainty of analysts and then prioritized instances for labeling based on the expected information gain (the difference between model uncertainty and analyst uncertainty) that would be provided by labelling each instance. We found that the information maximization gain heuristic improved model performance over existing sampling methods for Active Learning. Based on the results obtained, we recommend that analysts should be screened, and possibly trained, prior to implementation of Active Learning in cybersecurity applications. We also recommend that the information gain maximizing sample method (based on expert confidence) should be used in early stages of Active Learning, providing that well-calibrated confidence can be obtained. We also note that the expertise of analysts should be assessed prior to Active Learning, as we found that analysts with lower labelling skill had poorly calibrated (over-) confidence in their labels.
- Abstract(参考訳): 再実行されたメールは、ほとんどのプライバシー要件を満たすが、データの流出を示す可能性のある異常なメールを検出することがより困難になる。
本稿では,情報ゲイン最大化ヒューリスティックを用いたアクティブラーニングの強化手法を開発し,プライバシ上の懸念から,メールの再実行版のみを人間アナリストによってラベル付けできる実環境において,その有効性を評価する。
最初のケーススタディでは,アクティブラーニングの実施方法について検討した。
モデルのパフォーマンスは、1人の高度に熟練した(ラベル付けタスクの観点で)アナリストがラベルを提供したときに最もよいことがわかった。
第2のケーススタディでは、信頼性評価を用いて、アナリストのラベル付けの不確実性を推定し、各インスタンスのラベル付けによって提供される期待される情報ゲイン(モデル不確実性とアナリストの不確実性の違い)に基づいてラベル付けのインスタンスを優先順位付けしました。
その結果,アクティブラーニングのための既存のサンプリング手法よりも,情報最大化によるヒューリスティックなモデル性能の向上が得られた。
得られた結果に基づいて、サイバーセキュリティアプリケーションでActive Learningを実装する前に、アナリストをスクリーニングし、おそらく訓練することを推奨する。
また,情報ゲインの最大化(専門家の信頼度に基づく)をアクティブラーニングの初期段階で行うことを推奨する。
また、より低いラベル付けスキルを持つアナリストは、ラベルに対する(過剰な)信頼度が低かったため、Active Learningの前にアナリストの専門知識を評価するべきだとも指摘しています。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Learn When (not) to Trust Language Models: A Privacy-Centric Adaptive Model-Aware Approach [23.34505448257966]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。
LLMの事前学習データを解析することにより,データ認識による検索をいつ行うかを決定する方法が提案されている。
これらのデータ認識手法は、特に機密データや広範な事前学習データへのアクセスを必要とする場合に、プライバシー上のリスクとメモリ制限をもたらす。
我々は、トークンの埋め込みがモデルの本質的な知識を捉えることができると仮定し、事前学習データへのアクセスに関連するプライバシーリスクを伴わずに、検索の必要性を判断するためのより安全で簡単な方法を提供する。
論文 参考訳(メタデータ) (2024-04-04T15:21:22Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Data AUDIT: Identifying Attribute Utility- and Detectability-Induced
Bias in Task Models [8.420252576694583]
医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。
提案手法は,データセット属性に関連するリスクを,検出性と実用性の観点から分解する。
本手法を用いて, ほぼ知覚不能なバイアス誘発アーティファクトを確実に同定するスクリーニング手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T16:50:15Z) - Implementing Active Learning in Cybersecurity: Detecting Anomalies in
Redacted Emails [10.303697869042283]
本研究は,電子メールの異常検出に対するアクティブラーニングの適用に関する研究成果について述べる。
我々は、異なるAL戦略とそれらがモデル性能に与える影響を評価する。
論文 参考訳(メタデータ) (2023-03-01T23:53:01Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Investigating a Baseline Of Self Supervised Learning Towards Reducing
Labeling Costs For Image Classification [0.0]
この研究は、Kaggle.comの cat-vs-dogs データセット Mnist と Fashion-Mnist を実装し、自己教師型学習タスクを調査している。
その結果、自己教師型学習におけるプレテキスト処理は、下流分類タスクの約15%の精度を向上させることがわかった。
論文 参考訳(メタデータ) (2021-08-17T06:43:05Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。