論文の概要: CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security Research
- arxiv url: http://arxiv.org/abs/2411.01176v1
- Date: Sat, 02 Nov 2024 08:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:07.264906
- Title: CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security Research
- Title(参考訳): CmdCaliper: セキュリティ研究のためのセマンティックなコマンドライン埋め込みモデルとデータセット
- Authors: Sian-Yao Huang, Cheng-Lin Yang, Che-Yu Lin, Chun-Ying Huang,
- Abstract要約: この研究は、プライバシと規制上の懸念による包括的なデータセットの欠如によって妨げられているサイバーセキュリティのコマンドライン埋め込みに対処する。
本稿では,CyPHERという類似のコマンド行のトレーニングと非バイアス評価のための最初のデータセットを提案する。
トレーニングセットは,28,520の類似のコマンドラインペアからなる大規模言語モデル(LLM)を用いて生成される。
我々のテストデータセットは、実際のコマンドラインデータから得られた2,807の類似のコマンドラインペアで構成されています。
- 参考スコア(独自算出の注目度): 5.5605083699909885
- License:
- Abstract: This research addresses command-line embedding in cybersecurity, a field obstructed by the lack of comprehensive datasets due to privacy and regulation concerns. We propose the first dataset of similar command lines, named CyPHER, for training and unbiased evaluation. The training set is generated using a set of large language models (LLMs) comprising 28,520 similar command-line pairs. Our testing dataset consists of 2,807 similar command-line pairs sourced from authentic command-line data. In addition, we propose a command-line embedding model named CmdCaliper, enabling the computation of semantic similarity with command lines. Performance evaluations demonstrate that the smallest version of CmdCaliper (30 million parameters) suppresses state-of-the-art (SOTA) sentence embedding models with ten times more parameters across various tasks (e.g., malicious command-line detection and similar command-line retrieval). Our study explores the feasibility of data generation using LLMs in the cybersecurity domain. Furthermore, we release our proposed command-line dataset, embedding models' weights and all program codes to the public. This advancement paves the way for more effective command-line embedding for future researchers.
- Abstract(参考訳): この研究は、プライバシと規制上の懸念による包括的なデータセットの欠如によって妨げられているサイバーセキュリティのコマンドライン埋め込みに対処する。
本稿では,CyPHERという類似のコマンド行のトレーニングと非バイアス評価のための最初のデータセットを提案する。
トレーニングセットは、28,520の類似のコマンドラインペアからなる大きな言語モデル(LLM)のセットを使用して生成される。
我々のテストデータセットは、実際のコマンドラインデータから得られた2,807の類似のコマンドラインペアで構成されています。
さらに,CmdCaliperというコマンド行埋め込みモデルを提案する。
CmdCaliperの最小バージョン(3000万のパラメータ)は、さまざまなタスク(悪意のあるコマンドライン検出や同様のコマンドライン検索など)の10倍のパラメータを持つ、最先端(SOTA)文の埋め込みモデルを抑制する。
サイバーセキュリティ分野におけるLSMを用いたデータ生成の実現可能性について検討した。
さらに、提案したコマンドラインデータセット、モデルの重み付け、プログラムコードをすべて公開しています。
この進歩は、将来の研究者にとってより効果的なコマンドライン埋め込みの道を開く。
関連論文リスト
- Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - CommonIT: Commonality-Aware Instruction Tuning for Large Language Models via Data Partitions [17.252582058787937]
そこで我々はCommonIT: Commonality-aware Instruction Tuningと呼ばれる新しい指導指導戦略を導入する。
具体的には、命令データセットを3つのメトリクス(Task, Embedding, Length)で異なるグループにクラスタ化する。
LLaMaモデルの厳密なテストは、LLMの命令追従能力を向上するCommonITの有効性を示す。
論文 参考訳(メタデータ) (2024-10-04T01:42:35Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Reinforcement Learning and Data-Generation for Syntax-Guided Synthesis [0.0]
我々はモンテカルロ木探索(MCTS)を用いて候補解の空間を探索するSyGuSの強化学習アルゴリズムを提案する。
我々のアルゴリズムは,木に縛られた高信頼度と組み合わさって,探索と利用のバランスをとるためのポリシーと価値関数を学習する。
論文 参考訳(メタデータ) (2023-07-13T11:30:50Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - Training Natural Language Processing Models on Encrypted Text for
Enhanced Privacy [0.0]
本研究では,暗号化されたテキストデータを用いたNLPモデルのトレーニング手法を提案する。
以上の結果から,暗号化モデルと非暗号化モデルの両方が同等の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2023-05-03T00:37:06Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - NL2CMD: An Updated Workflow for Natural Language to Bash Commands
Translation [2.099922236065961]
本稿では,Bashコマンドをスクラッチから合成する研究に2つの貢献をする。
まず、対応する英語テキストからBashコマンドを生成するのに使用される最先端の翻訳モデルについて述べる。
第2に、NL2CMDデータセットを新たに導入し、自動生成し、人間の介入を最小限に抑え、以前のデータセットの6倍以上の規模となる。
論文 参考訳(メタデータ) (2023-02-15T18:31:36Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。