論文の概要: SecEncoder: Logs are All You Need in Security
- arxiv url: http://arxiv.org/abs/2411.07528v1
- Date: Tue, 12 Nov 2024 03:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:39.847159
- Title: SecEncoder: Logs are All You Need in Security
- Title(参考訳): SecEncoder:ログはセキュリティに必要なすべて
- Authors: Muhammed Fatih Bulut, Yingqi Liu, Naveed Ahmad, Maximilian Turner, Sami Ait Ouahmane, Cameron Andrews, Lloyd Greenwald,
- Abstract要約: 本稿では,セキュリティログを用いて事前トレーニングした,特殊な小言語モデルSecEncoderを紹介する。
実験の結果,SecEncoder は BERTa-v3-large や OpenAI の Embedding (emtext-ada) モデルなど,他の LM よりも優れていた。
- 参考スコア(独自算出の注目度): 8.591459170396698
- License:
- Abstract: Large and Small Language Models (LMs) are typically pretrained using extensive volumes of text, which are sourced from publicly accessible platforms such as Wikipedia, Book Corpus, or through web scraping. These models, due to their exposure to a wide range of language data, exhibit impressive generalization capabilities and can perform a multitude of tasks simultaneously. However, they often fall short when it comes to domain-specific tasks due to their broad training data. This paper introduces SecEncoder, a specialized small language model that is pretrained using security logs. SecEncoder is designed to address the domain-specific limitations of general LMs by focusing on the unique language and patterns found in security logs. Experimental results indicate that SecEncoder outperforms other LMs, such as BERTlarge, DeBERTa-v3-large and OpenAI's Embedding (textembedding-ada-002) models, which are pretrained mainly on natural language, across various tasks. Furthermore, although SecEncoder is primarily pretrained on log data, it outperforms models pretrained on natural language for a range of tasks beyond log analysis, such as incident prioritization and threat intelligence document retrieval. This suggests that domain specific pretraining with logs can significantly enhance the performance of LMs in security. These findings pave the way for future research into security-specific LMs and their potential applications.
- Abstract(参考訳): 大小言語モデル(LM)は、通常、ウィキペディア、ブックコーパス、ウェブスクレイピングなどの公開プラットフォームから得られる大量のテキストを使用して事前訓練される。
これらのモデルは、広範囲の言語データに曝露されているため、印象的な一般化能力を示し、同時に多数のタスクを実行することができる。
しかしながら、広範なトレーニングデータのため、ドメイン固有のタスクでは不足することが多い。
本稿では,セキュリティログを用いて事前トレーニングした,特殊な小言語モデルSecEncoderを紹介する。
SecEncoderは、セキュリティログにあるユニークな言語とパターンに焦点を当てることで、一般的なLMのドメイン固有の制限に対処するように設計されている。
実験の結果,SecEncoder は BERTlarge,DeBERTa-v3-large,OpenAI の Embedding (textembedding-ada-002) モデルなど他の LM よりも優れていることがわかった。
さらに、SecEncoderは主にログデータに基づいて事前訓練されているが、インシデント優先順位付けや脅威インテリジェンス文書検索など、ログ分析以上のタスクのために、自然言語で事前訓練されたモデルよりも優れている。
これは、ログによるドメイン固有の事前トレーニングは、セキュリティにおけるLMのパフォーマンスを大幅に向上させる可能性があることを示唆している。
これらの知見は、セキュリティ固有のLMとその潜在的な応用に関する将来の研究の道を開くものである。
関連論文リスト
- Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - Inside the Black Box: Detecting Data Leakage in Pre-trained Language Encoders [68.00224057755773]
我々は、事前学習した言語エンコーダから適応した下流モデルを通して、事前学習したデータのメンバシップリークに焦点を当てた。
評価の結果,下流モデルのブラックボックス出力のみを露呈しても,メンバシップリークの存在が確認された。
論文 参考訳(メタデータ) (2024-08-20T17:55:15Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Special Characters Attack: Toward Scalable Training Data Extraction From Large Language Models [36.58320580210008]
特定の特殊文字またはそれらと英語の文字の組み合わせがより強いメモリトリガーであり、より深刻なデータ漏洩を引き起こすことを示す。
トレーニングデータ漏洩を誘発する簡易かつ効果的な特殊文字攻撃(SCA)を提案する。
論文 参考訳(メタデータ) (2024-05-09T02:35:32Z) - Traces of Memorisation in Large Language Models for Code [16.125924759649106]
コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。
記憶の速度を、自然言語で訓練された大きな言語モデルと比較する。
コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。
論文 参考訳(メタデータ) (2023-12-18T19:12:58Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Language Model for Text Analytic in Cybersecurity [6.93939291118954]
言語モデルはテキスト分析とNLPにおいて重要である。
本稿では,SecureBERTと呼ばれるサイバーセキュリティ言語モデルを提案する。
SecureBERTは、サイバーセキュリティドメイン内のテキストの意味をキャプチャすることができる。
論文 参考訳(メタデータ) (2022-04-06T09:17:21Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Style Attuned Pre-training and Parameter Efficient Fine-tuning for
Spoken Language Understanding [19.105304214638075]
音声言語理解学習のための新しいフレームワークを提案する。
このフレームワークは会話言語モデリング(CLM)事前学習タスクとライトエンコーダアーキテクチャで構成されている。
このフレームワークでは、Alexaの内部データセットと2つのパブリックデータセット上での最先端のSLU結果のパフォーマンスにマッチし、1タスクあたりのパラメータは4.4%に過ぎません。
論文 参考訳(メタデータ) (2020-10-09T03:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。