論文の概要: Language Model for Text Analytic in Cybersecurity
- arxiv url: http://arxiv.org/abs/2204.02685v1
- Date: Wed, 6 Apr 2022 09:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 13:05:27.319104
- Title: Language Model for Text Analytic in Cybersecurity
- Title(参考訳): サイバーセキュリティにおけるテキスト分析のための言語モデル
- Authors: Ehsan Aghaei, Xi Niu, Waseem Shadid, Ehab Al-Shaer
- Abstract要約: 言語モデルはテキスト分析とNLPにおいて重要である。
本稿では,SecureBERTと呼ばれるサイバーセキュリティ言語モデルを提案する。
SecureBERTは、サイバーセキュリティドメイン内のテキストの意味をキャプチャすることができる。
- 参考スコア(独自算出の注目度): 6.93939291118954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: NLP is a form of artificial intelligence and machine learning concerned with
a computer or machine's ability to understand and interpret human language.
Language models are crucial in text analytics and NLP since they allow
computers to interpret qualitative input and convert it to quantitative data
that they can use in other tasks. In essence, in the context of transfer
learning, language models are typically trained on a large generic corpus,
referred to as the pre-training stage, and then fine-tuned to a specific
underlying task. As a result, pre-trained language models are mostly used as a
baseline model that incorporates a broad grasp of the context and may be
further customized to be used in a new NLP task.
The majority of pre-trained models are trained on corpora from general
domains, such as Twitter, newswire, Wikipedia, and Web. Such off-the-shelf NLP
models trained on general text may be inefficient and inaccurate in specialized
fields. In this paper, we propose a cybersecurity language model called
SecureBERT, which is able to capture the text connotations in the cybersecurity
domain, and therefore could further be used in automation for many important
cybersecurity tasks that would otherwise rely on human expertise and tedious
manual efforts. SecureBERT is trained on a large corpus of cybersecurity text
collected and preprocessed by us from a variety of sources in cybersecurity and
the general computing domain. Using our proposed methods for tokenization and
model weights adjustment, SecureBERT is not only able to preserve the
understanding of general English as most pre-trained language models can do,
but also effective when applied to text that has cybersecurity implications.
- Abstract(参考訳): nlpは、コンピュータや機械が人間の言語を理解し解釈する能力に関する人工知能や機械学習の一形態である。
言語モデルは、コンピュータが質的入力を解釈し、他のタスクで使用できる量的データに変換することができるため、テキスト分析やnlpにおいて重要である。
本質的に、転送学習の文脈では、言語モデルは、通常、事前学習段階と呼ばれる大きな汎用コーパスで訓練され、その後、特定の基礎タスクに微調整される。
その結果、事前訓練された言語モデルは、主にコンテキストの広い把握を取り入れたベースラインモデルとして使用され、新しいNLPタスクで使用されるようにさらにカスタマイズされる可能性がある。
トレーニング済みのモデルの大部分は、twitter、newswire、wikipedia、webなど、一般的なドメインのコーパスでトレーニングされている。
一般的なテキストで訓練された既製のNLPモデルは、特殊分野において非効率で不正確である可能性がある。
本稿では,SecureBERTと呼ばれるサイバーセキュリティ言語モデルを提案する。SecureBERTは,サイバーセキュリティ領域におけるテキストの意味をキャプチャし,それ以外は人間の専門知識や面倒な手作業に依存する多くの重要なサイバーセキュリティタスクの自動化に利用することができる。
SecureBERTは、サイバーセキュリティと汎用コンピューティングドメインのさまざまなソースから収集され、事前処理された大規模なサイバーセキュリティテキストのコーパスでトレーニングされています。
提案したトークン化法とモデル重み付け調整法を用いて、SecureBERTは、トレーニング済みのほとんどの言語モデルが可能であるように、一般的な英語の理解を維持するだけでなく、サイバーセキュリティに影響を及ぼすテキストに適用した場合にも有効である。
関連論文リスト
- SecEncoder: Logs are All You Need in Security [8.591459170396698]
本稿では,セキュリティログを用いて事前トレーニングした,特殊な小言語モデルSecEncoderを紹介する。
実験の結果,SecEncoder は BERTa-v3-large や OpenAI の Embedding (emtext-ada) モデルなど,他の LM よりも優れていた。
論文 参考訳(メタデータ) (2024-11-12T03:56:07Z) - SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language
Models for Private and Secure Inference [6.0189674528771]
本稿では、ディープラーニングモデルに関連するプライバシとセキュリティの問題に対処する。
ディープニューラルネットワークモデルは、現代のAIベースの様々なアプリケーションにおいて重要なコンポーネントとして機能する。
パスキー暗号化されたユーザ固有テキストに対して,トランスフォーマーに基づく言語モデルを適応し,微調整する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-28T19:55:11Z) - Combatting Human Trafficking in the Cyberspace: A Natural Language
Processing-Based Methodology to Analyze the Language in Online Advertisements [55.2480439325792]
このプロジェクトは、高度自然言語処理(NLP)技術により、オンラインC2Cマーケットプレースにおける人身売買の急激な問題に取り組む。
我々は、最小限の監督で擬似ラベル付きデータセットを生成する新しい手法を導入し、最先端のNLPモデルをトレーニングするための豊富なリソースとして機能する。
重要な貢献は、Integrated Gradientsを使った解釈可能性フレームワークの実装であり、法執行にとって重要な説明可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-22T02:45:01Z) - Adapting Large Language Models to Domains via Reading Comprehension [86.24451681746676]
ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。
生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。
生コーパスを可読テキストに変換する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:17:52Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Foundation Models for Natural Language Processing -- Pre-trained
Language Models Integrating Media [0.0]
ファンデーションモデルは自然言語処理のための事前訓練された言語モデルである。
画像処理やビデオ処理からロボット制御学習まで、幅広いメディアや問題領域に適用することができる。
本書は、ファンデーションモデルの研究および応用における技術の現状を概観する。
論文 参考訳(メタデータ) (2023-02-16T20:42:04Z) - CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain [0.0]
サイバーセキュリティ分野に特化した言語モデルを提案する。
このモデルは、15の異なるドメイン依存外在的タスクと内在的タスクに基づく他のモデルと比較される。
モデルが以前に訓練されたドメインに依存しない知識を検索できるので、破滅的な作業に対する我々のアプローチが示される。
論文 参考訳(メタデータ) (2022-12-06T13:49:12Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。