論文の概要: Understanding the Process of Data Labeling in Cybersecurity
- arxiv url: http://arxiv.org/abs/2311.16388v1
- Date: Tue, 28 Nov 2023 00:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 15:42:08.051461
- Title: Understanding the Process of Data Labeling in Cybersecurity
- Title(参考訳): サイバーセキュリティにおけるデータラベリングのプロセスの理解
- Authors: Tobias Braun, Irdin Pekaric, Giovanni Apruzzese,
- Abstract要約: サイバー脅威検出では、高品質なデータを得るのは難しい。
機械学習の特定の応用には、そのようなデータは人間のオペレーターによってラベル付けされなければならない。
データラベリングの文脈において,学術研究とセキュリティ実践の橋渡しを行う。
- 参考スコア(独自算出の注目度): 4.611436679049889
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many domains now leverage the benefits of Machine Learning (ML), which promises solutions that can autonomously learn to solve complex tasks by training over some data. Unfortunately, in cyberthreat detection, high-quality data is hard to come by. Moreover, for some specific applications of ML, such data must be labeled by human operators. Many works "assume" that labeling is tough/challenging/costly in cyberthreat detection, thereby proposing solutions to address such a hurdle. Yet, we found no work that specifically addresses the process of labeling 'from the viewpoint of ML security practitioners'. This is a problem: to this date, it is still mostly unknown how labeling is done in practice -- thereby preventing one from pinpointing "what is needed" in the real world. In this paper, we take the first step to build a bridge between academic research and security practice in the context of data labeling. First, we reach out to five subject matter experts and carry out open interviews to identify pain points in their labeling routines. Then, by using our findings as a scaffold, we conduct a user study with 13 practitioners from large security companies, and ask detailed questions on subjects such as active learning, costs of labeling, and revision of labels. Finally, we perform proof-of-concept experiments addressing labeling-related aspects in cyberthreat detection that are sometimes overlooked in research. Altogether, our contributions and recommendations serve as a stepping stone to future endeavors aimed at improving the quality and robustness of ML-driven security systems. We release our resources.
- Abstract(参考訳): 多くのドメインが機械学習(ML)の利点を活用しており、いくつかのデータをトレーニングすることで、複雑なタスクを自律的に解決できるソリューションを約束している。
残念ながら、サイバー脅威検出では、高品質なデータを得るのは難しい。
さらに、MLの特定の用途では、そのようなデータは人間の演算子によってラベル付けされなければならない。
多くの著作では、ラベリングはサイバー脅威検出においてタフ/シャレージング/コストがかかるため、そのようなハードルに対処する解決策を提案している。
しかし、"MLセキュリティ実践者の観点から"ラベル付けのプロセスに特に対処する作業は見つからなかった。
この日に至るまで、ラベリングが実際にどのように行われているのかはほとんど分かっていないため、現実の世界で“何が必要なのか”を特定できない。
本稿では,データラベリングの文脈において,学術研究とセキュリティ実践の橋渡しを行うための第一歩を踏み出す。
まず5つの課題の専門家に連絡し、公開インタビューを行い、ラベル付けルーチンの問題点を特定する。
そして,この知見を足場として,大手セキュリティ企業の実践者13人とユーザスタディを行い,アクティブラーニングやラベルのコスト,ラベルの改訂といった課題について詳細な質問を行った。
最後に,研究で見落とされがちなサイバー脅威検出におけるラベリングに関連する側面に対処する概念実証実験を行った。
さらに、私たちのコントリビューションとレコメンデーションは、ML駆動のセキュリティシステムの品質と堅牢性の向上を目的とした、将来の取り組みの足掛かりとして役立ちます。
リソースを解放します。
関連論文リスト
- Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving [86.04158840879727]
そこで我々は,強力なLLMを付与し,有能なスキルラベルを数学の質問に割り当てるための,プロンプト誘導型対話手法を開発した。
次に、セマンティッククラスタリングを行い、スキルラベルの粗いファミリーを取得する。
これらの粗いスキルラベルは人間に解釈可能である。
論文 参考訳(メタデータ) (2024-05-20T17:45:26Z) - KeNet:Knowledge-enhanced Doc-Label Attention Network for Multi-label
text classification [12.383260095788042]
マルチラベルテキスト分類(MLTC)は自然言語処理(NLP)の分野における基本的な課題である
我々は、外部知識、ラベル埋め込み、および包括的な注意機構を組み込んだ注意ネットワークを設計する。
提案手法は,3つのマルチラベルデータセットを用いた総合的な研究によって検証されている。
論文 参考訳(メタデータ) (2024-03-04T06:52:19Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - A Survey of Label-Efficient Deep Learning for 3D Point Clouds [109.07889215814589]
本稿では,点雲のラベル効率学習に関する包括的調査を行う。
本稿では,ラベルの種類によって提供されるデータ前提条件に基づいて,ラベル効率のよい学習手法を整理する分類法を提案する。
それぞれのアプローチについて、問題設定の概要と、関連する進展と課題を示す広範な文献レビューを提供する。
論文 参考訳(メタデータ) (2023-05-31T12:54:51Z) - Supporting the Task-driven Skill Identification in Open Source Project
Issue Tracking Systems [0.0]
コントリビュータがコントリビュータのタスクを選択するのを支援するために,オープンイシュー戦略の自動ラベル付けについて検討する。
スキルを特定することで、コントリビュータ候補はより適切なタスクを選択するべきだ、と私たちは主張する。
本研究では,実験におけるラベルの関連性を定量的に分析し,戦略の相対的重要性を比較した。
論文 参考訳(メタデータ) (2022-11-02T14:17:22Z) - A Survey on Extreme Multi-label Learning [72.8751573611815]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。
計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。
eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文 参考訳(メタデータ) (2022-10-08T08:31:34Z) - "Garbage In, Garbage Out" Revisited: What Do Machine Learning
Application Papers Report About Human-Labeled Training Data? [0.0]
ラベル付きトレーニングデータからモデルを自動的に抽出する監視された機械学習は、そのデータの品質に匹敵する。
本研究は、機械学習の応用出版物において、トレーニングデータのラベル付けに関する「ベストプラクティス」がどの程度続くかを調査した先行研究に基づいている。
論文 参考訳(メタデータ) (2021-07-05T21:24:02Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Automatic Feasibility Study via Data Quality Analysis for ML: A
Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。
我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。
エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文 参考訳(メタデータ) (2020-10-16T14:21:19Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。