論文の概要: TSM: Measuring the Enticement of Honeyfiles with Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2203.07580v1
- Date: Tue, 15 Mar 2022 01:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:08:48.182192
- Title: TSM: Measuring the Enticement of Honeyfiles with Natural Language
Processing
- Title(参考訳): tsm:自然言語処理によるハニーファイルの誘惑の測定
- Authors: Roelien C. Timmer and David Liebowitz and Surya Nepal and Salil
Kanhere
- Abstract要約: ハニーファイルの展開は、サイバー詐欺の侵入検知法として有用である。
ハニーファイルのキーとなる特性は、ファイルがそれと対話するために侵入者を引き付けることができる範囲である。
本稿では,トピックモデリングを用いてリポジトリ内のファイルを表現するトピックセマンティックマッチング(Topic Semantic Matching, TSM)を提案する。
- 参考スコア(独自算出の注目度): 16.584584657427516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Honeyfile deployment is a useful breach detection method in cyber deception
that can also inform defenders about the intent and interests of intruders and
malicious insiders. A key property of a honeyfile, enticement, is the extent to
which the file can attract an intruder to interact with it. We introduce a
novel metric, Topic Semantic Matching (TSM), which uses topic modelling to
represent files in the repository and semantic matching in an embedding vector
space to compare honeyfile text and topic words robustly. We also present a
honeyfile corpus created with different Natural Language Processing (NLP)
methods. Experiments show that TSM is effective in inter-corpus comparisons and
is a promising tool to measure the enticement of honeyfiles. TSM is the first
measure to use NLP techniques to quantify the enticement of honeyfile content
that compares the essential topical content of local contexts to honeyfiles and
is robust to paraphrasing.
- Abstract(参考訳): honeyfileの展開は、侵入者や悪意のあるインサイダーの意図や関心をディフェンダーに知らせる、サイバー詐欺における有用な侵入検出方法である。
ハニーファイルの重要な特性であるエンチテンションは、ファイルがそれと対話するために侵入者を引き付けることができる範囲である。
本稿では,トピックモデリングを用いてリポジトリ内のファイルを表現する新しいメトリクスであるトピック意味マッチング(tsm)と,honeyfileテキストとトピックワードをロバストに比較するための埋め込みベクトル空間における意味マッチングを提案する。
また、異なる自然言語処理(NLP)手法で作成したハニーファイルコーパスも提示する。
実験により、TSMは組織間比較に有効であり、ハニーファイルのエンチメントを測定するための有望なツールであることが示された。
TSMはNLP技術を用いた最初の尺度であり、局所的な文脈の重要トピックの内容とハニーファイルを比較したハニーファイルの内容のエンティベーションを定量化し、言い換えるのに堅牢である。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Honeyfile Camouflage: Hiding Fake Files in Plain Sight [20.708375447266338]
本稿では,ハニーファイルの命名の課題について考察する。
意味ベクトル空間におけるコサイン距離に基づいて、カモフラージュのための2つの指標を開発する。
私たちはメトリクスを評価して比較し、どちらも公開のGitHubソフトウェアリポジトリデータセットでうまく機能していることを示す。
論文 参考訳(メタデータ) (2024-05-08T02:01:17Z) - Act as a Honeytoken Generator! An Investigation into Honeytoken Generation with Large Language Models [3.976191782353992]
この研究は、詐欺ベースの防衛戦略の重要な構成要素であるハネトケンの設計におけるスケーラビリティの課題に対処する。
これらの制約を克服するために、この研究は大規模言語モデル(LLM)を用いて様々なハニトケンを作成するアプローチを体系的に研究する。
ロボット.txtファイルとハニーワードの生成は、16のプロンプトビルディングブロックに基づいて、210の異なるプロンプト構造を体系的にテストするために使用された。
論文 参考訳(メタデータ) (2024-04-24T18:18:56Z) - Contextual Chart Generation for Cyber Deception [19.644039720052263]
ハニーファイルは、侵害されたシステムの侵入者を惹きつけ、検出するために設計されたセキュリティ資産である。
本稿では,ハニーファイルコンテンツ生成問題の重要な構成要素である文書チャートに焦点を当てる。
2つの目的に構築された生成モデルを組み合わせることで、この問題に対してマルチモーダルなアプローチをとる。
論文 参考訳(メタデータ) (2024-04-07T07:56:14Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Elevating Code-mixed Text Handling through Auditory Information of Words [24.53638976212391]
本稿では,SOUNDEXの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。
論文 参考訳(メタデータ) (2023-10-27T14:03:30Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Short Text Classification Approach to Identify Child Sexual Exploitation
Material [4.415977307120616]
本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
論文 参考訳(メタデータ) (2020-10-29T09:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。