論文の概要: Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain
- arxiv url: http://arxiv.org/abs/2403.10576v1
- Date: Fri, 15 Mar 2024 05:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:55:17.966135
- Title: Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain
- Title(参考訳): Ignore Me But Don't Change me: using non-Linguistic Elements for Pretraining on the Cybersecurity Domain
- Authors: Eugene Jang, Jian Cui, Dayeon Yim, Youngjin Jin, Jin-Woo Chung, Seungwon Shin, Yongjae Lee,
- Abstract要約: サイバーセキュリティ情報はしばしば技術的に複雑で、構造化されていないテキストを通して中継される。
高レベルの専門知識を持つテキストドメインでは、ドメイン内のコーパスを事前訓練することが、ドメインの専門知識を得るための言語モデルとして一般的な方法である。
我々は,異なる事前学習手法を提案し,下流タスクと探索タスクを通してその効果を評価する。
- 参考スコア(独自算出の注目度): 38.5396545748789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cybersecurity information is often technically complex and relayed through unstructured text, making automation of cyber threat intelligence highly challenging. For such text domains that involve high levels of expertise, pretraining on in-domain corpora has been a popular method for language models to obtain domain expertise. However, cybersecurity texts often contain non-linguistic elements (such as URLs and hash values) that could be unsuitable with the established pretraining methodologies. Previous work in other domains have removed or filtered such text as noise, but the effectiveness of these methods have not been investigated, especially in the cybersecurity domain. We propose different pretraining methodologies and evaluate their effectiveness through downstream tasks and probing tasks. Our proposed strategy (selective MLM and jointly training NLE token classification) outperforms the commonly taken approach of replacing non-linguistic elements (NLEs). We use our domain-customized methodology to train CyBERTuned, a cybersecurity domain language model that outperforms other cybersecurity PLMs on most tasks.
- Abstract(参考訳): サイバーセキュリティ情報はしばしば技術的に複雑であり、構造化されていないテキストを通して中継される。
高レベルの専門知識を持つテキストドメインでは、ドメイン内のコーパスを事前訓練することが、ドメインの専門知識を得るための言語モデルとして一般的な方法である。
しかし、サイバーセキュリティのテキストには、確立された事前訓練手法には適さない非言語的要素(URLやハッシュ値など)が含まれていることが多い。
他の領域での以前の研究は、ノイズのようなテキストを除去またはフィルタリングしているが、これらの手法の有効性は、特にサイバーセキュリティ領域では調査されていない。
我々は,異なる事前学習手法を提案し,下流タスクと探索タスクを通してその効果を評価する。
提案手法(選択的MLMとNLEトークン分類を共同訓練)は,非言語的要素(NLE)を置き換える一般的なアプローチよりも優れている。
CyBERTunedは、サイバーセキュリティのドメイン言語モデルで、ほとんどのタスクにおいて、他のサイバーセキュリティのPLMよりも優れています。
関連論文リスト
- LSTM Recurrent Neural Networks for Cybersecurity Named Entity Recognition [1.411911111800469]
本論文で実証されたモデルはドメイン独立であり,サイバーセキュリティ領域のエンティティに特有の機能に依存しない。
得られた結果から, 本手法は, 注釈付きコーパスが適度な大きさであることから, 技工法の現状よりも優れていた。
論文 参考訳(メタデータ) (2024-08-30T08:35:48Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Exploring the Limits of Transfer Learning with Unified Model in the
Cybersecurity Domain [17.225973170682604]
生成型マルチタスクモデル Unified Text-to-Text Cybersecurity (UTS) を導入する。
UTSはマルウェアレポート、フィッシングサイトURL、プログラミングコード構造、ソーシャルメディアデータ、ブログ、ニュース記事、フォーラムの投稿で訓練されている。
UTSはいくつかのサイバーセキュリティデータセットの性能を改善している。
論文 参考訳(メタデータ) (2023-02-20T22:21:26Z) - CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain [0.0]
サイバーセキュリティ分野に特化した言語モデルを提案する。
このモデルは、15の異なるドメイン依存外在的タスクと内在的タスクに基づく他のモデルと比較される。
モデルが以前に訓練されたドメインに依存しない知識を検索できるので、破滅的な作業に対する我々のアプローチが示される。
論文 参考訳(メタデータ) (2022-12-06T13:49:12Z) - Domain Invariant Masked Autoencoders for Self-supervised Learning from
Multi-domains [73.54897096088149]
マルチドメインからの自己教師型学習のためのドメイン不変のMasked AutoEncoder (DiMAE)を提案する。
中心となる考え方は、入力画像を異なるドメインからのスタイルノイズで拡張し、拡張イメージの埋め込みからイメージを再構築することである。
PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
論文 参考訳(メタデータ) (2022-05-10T09:49:40Z) - Language Model for Text Analytic in Cybersecurity [6.93939291118954]
言語モデルはテキスト分析とNLPにおいて重要である。
本稿では,SecureBERTと呼ばれるサイバーセキュリティ言語モデルを提案する。
SecureBERTは、サイバーセキュリティドメイン内のテキストの意味をキャプチャすることができる。
論文 参考訳(メタデータ) (2022-04-06T09:17:21Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Adversarial Machine Learning Attacks and Defense Methods in the Cyber
Security Domain [58.30296637276011]
本稿では,機械学習技術に基づくセキュリティソリューションに対する敵攻撃に関する最新の研究を要約する。
サイバーセキュリティドメインでエンドツーエンドの敵攻撃を実装するという、ユニークな課題を議論するのは、これが初めてである。
論文 参考訳(メタデータ) (2020-07-05T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。