論文の概要: TSM: Measuring the Enticement of Honeyfiles with Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2203.07580v1
- Date: Tue, 15 Mar 2022 01:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:08:48.182192
- Title: TSM: Measuring the Enticement of Honeyfiles with Natural Language
Processing
- Title(参考訳): tsm:自然言語処理によるハニーファイルの誘惑の測定
- Authors: Roelien C. Timmer and David Liebowitz and Surya Nepal and Salil
Kanhere
- Abstract要約: ハニーファイルの展開は、サイバー詐欺の侵入検知法として有用である。
ハニーファイルのキーとなる特性は、ファイルがそれと対話するために侵入者を引き付けることができる範囲である。
本稿では,トピックモデリングを用いてリポジトリ内のファイルを表現するトピックセマンティックマッチング(Topic Semantic Matching, TSM)を提案する。
- 参考スコア(独自算出の注目度): 16.584584657427516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Honeyfile deployment is a useful breach detection method in cyber deception
that can also inform defenders about the intent and interests of intruders and
malicious insiders. A key property of a honeyfile, enticement, is the extent to
which the file can attract an intruder to interact with it. We introduce a
novel metric, Topic Semantic Matching (TSM), which uses topic modelling to
represent files in the repository and semantic matching in an embedding vector
space to compare honeyfile text and topic words robustly. We also present a
honeyfile corpus created with different Natural Language Processing (NLP)
methods. Experiments show that TSM is effective in inter-corpus comparisons and
is a promising tool to measure the enticement of honeyfiles. TSM is the first
measure to use NLP techniques to quantify the enticement of honeyfile content
that compares the essential topical content of local contexts to honeyfiles and
is robust to paraphrasing.
- Abstract(参考訳): honeyfileの展開は、侵入者や悪意のあるインサイダーの意図や関心をディフェンダーに知らせる、サイバー詐欺における有用な侵入検出方法である。
ハニーファイルの重要な特性であるエンチテンションは、ファイルがそれと対話するために侵入者を引き付けることができる範囲である。
本稿では,トピックモデリングを用いてリポジトリ内のファイルを表現する新しいメトリクスであるトピック意味マッチング(tsm)と,honeyfileテキストとトピックワードをロバストに比較するための埋め込みベクトル空間における意味マッチングを提案する。
また、異なる自然言語処理(NLP)手法で作成したハニーファイルコーパスも提示する。
実験により、TSMは組織間比較に有効であり、ハニーファイルのエンチメントを測定するための有望なツールであることが示された。
TSMはNLP技術を用いた最初の尺度であり、局所的な文脈の重要トピックの内容とハニーファイルを比較したハニーファイルの内容のエンティベーションを定量化し、言い換えるのに堅牢である。
関連論文リスト
- Honeyfile Camouflage: Hiding Fake Files in Plain Sight [20.708375447266338]
本稿では,ハニーファイルの命名の課題について考察する。
意味ベクトル空間におけるコサイン距離に基づいて、カモフラージュのための2つの指標を開発する。
私たちはメトリクスを評価して比較し、どちらも公開のGitHubソフトウェアリポジトリデータセットでうまく機能していることを示す。
論文 参考訳(メタデータ) (2024-05-08T02:01:17Z) - Act as a Honeytoken Generator! An Investigation into Honeytoken Generation with Large Language Models [3.976191782353992]
この研究は、詐欺ベースの防衛戦略の重要な構成要素であるハネトケンの設計におけるスケーラビリティの課題に対処する。
これらの制約を克服するために、この研究は大規模言語モデル(LLM)を用いて様々なハニトケンを作成するアプローチを体系的に研究する。
ロボット.txtファイルとハニーワードの生成は、16のプロンプトビルディングブロックに基づいて、210の異なるプロンプト構造を体系的にテストするために使用された。
論文 参考訳(メタデータ) (2024-04-24T18:18:56Z) - Contextual Chart Generation for Cyber Deception [19.644039720052263]
ハニーファイルは、侵害されたシステムの侵入者を惹きつけ、検出するために設計されたセキュリティ資産である。
本稿では,ハニーファイルコンテンツ生成問題の重要な構成要素である文書チャートに焦点を当てる。
2つの目的に構築された生成モデルを組み合わせることで、この問題に対してマルチモーダルなアプローチをとる。
論文 参考訳(メタデータ) (2024-04-07T07:56:14Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Elevating Code-mixed Text Handling through Auditory Information of Words [24.53638976212391]
本稿では,SOUNDEXの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。
論文 参考訳(メタデータ) (2023-10-27T14:03:30Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file
Context [82.88371379927112]
予め訓練されたコード LM 上で,ファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークを提案する。
CoCoMICは既存のコードLMを33.94%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが28.69%増加した。
論文 参考訳(メタデータ) (2022-12-20T05:48:09Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Short Text Classification Approach to Identify Child Sexual Exploitation
Material [4.415977307120616]
本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
論文 参考訳(メタデータ) (2020-10-29T09:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。