論文の概要: Act as a Honeytoken Generator! An Investigation into Honeytoken Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2404.16118v1
- Date: Wed, 24 Apr 2024 18:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:02:25.941722
- Title: Act as a Honeytoken Generator! An Investigation into Honeytoken Generation with Large Language Models
- Title(参考訳): ハネトケン発生器としての行為! 大規模言語モデルを用いたハネトケン生成の検討
- Authors: Daniel Reti, Norman Becker, Tillmann Angeli, Anasuya Chattopadhyay, Daniel Schneider, Sebastian Vollmer, Hans D. Schotten,
- Abstract要約: この研究は、詐欺ベースの防衛戦略の重要な構成要素であるハネトケンの設計におけるスケーラビリティの課題に対処する。
これらの制約を克服するために、この研究は大規模言語モデル(LLM)を用いて様々なハニトケンを作成するアプローチを体系的に研究する。
ロボット.txtファイルとハニーワードの生成は、16のプロンプトビルディングブロックに基づいて、210の異なるプロンプト構造を体系的にテストするために使用された。
- 参考スコア(独自算出の注目度): 3.976191782353992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing prevalence of security incidents, the adoption of deception-based defense strategies has become pivotal in cyber security. This work addresses the challenge of scalability in designing honeytokens, a key component of such defense mechanisms. The manual creation of honeytokens is a tedious task. Although automated generators exists, they often lack versatility, being specialized for specific types of honeytokens, and heavily rely on suitable training datasets. To overcome these limitations, this work systematically investigates the approach of utilizing Large Language Models (LLMs) to create a variety of honeytokens. Out of the seven different honeytoken types created in this work, such as configuration files, databases, and log files, two were used to evaluate the optimal prompt. The generation of robots.txt files and honeywords was used to systematically test 210 different prompt structures, based on 16 prompt building blocks. Furthermore, all honeytokens were tested across different state-of-the-art LLMs to assess the varying performance of different models. Prompts performing optimally on one LLMs do not necessarily generalize well to another. Honeywords generated by GPT-3.5 were found to be less distinguishable from real passwords compared to previous methods of automated honeyword generation. Overall, the findings of this work demonstrate that generic LLMs are capable of creating a wide array of honeytokens using the presented prompt structures.
- Abstract(参考訳): セキュリティインシデントの増加に伴い、偽装ベースの防衛戦略の採用はサイバーセキュリティにおいて重要な役割を担っている。
この研究は、このような防御機構の重要な構成要素であるハネトケンの設計におけるスケーラビリティの課題に対処する。
ハネトケンのマニュアル作成は面倒な作業である。
自動生成装置は存在するが、汎用性に欠けることが多く、特定の種類のハネトケンに特化しており、適切なトレーニングデータセットに大きく依存している。
これらの制約を克服するために、この研究は大規模言語モデル(LLM)を用いて様々なハニトケンを作成するアプローチを体系的に研究する。
設定ファイル、データベース、ログファイルなど、この作業で作成された7種類のハネトケンタイプのうち、最適なプロンプトを評価するために2つが使用された。
ロボット.txtファイルとハニーワードの生成は、16のプロンプトビルディングブロックに基づいて、210の異なるプロンプト構造を体系的にテストするために使用された。
さらに、全てのハニトケンは、異なるモデルの様々な性能を評価するために、異なる最先端のLLMで試験された。
1つの LLM 上で最適に実行されるプロンプトは、必ずしも他の LLM に対してうまく一般化するとは限らない。
GPT-3.5で生成されたハニーワードは、従来の自動ハニーワード生成法に比べて、実際のパスワードと区別しにくいことが判明した。
全体として、本研究の成果は、ジェネリックLLMが提示されたプロンプト構造を用いて、幅広いハネトケンを生成可能であることを示している。
関連論文リスト
- Getting the most out of your tokenizer for pre-training and domain
adaptation [26.427537023771844]
トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータは,モデルの生成速度に大きな影響を及ぼすことを示す。
我々は,事前学習したLCMのトークン化を専門とし,生成速度と有効コンテキストサイズに大きな利得を得る。
論文 参考訳(メタデータ) (2024-02-01T21:49:34Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - Hot or Cold? Adaptive Temperature Sampling for Code Generation with
Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。
以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。
その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-06T06:27:33Z) - PassGPT: Password Modeling and (Guided) Generation with Large Language
Models [59.11160990637616]
パスワード生成のためのパスワードリークをトレーニングした大規模言語モデルであるPassGPTを提案する。
また、任意の制約を満たすパスワードを生成するために、PassGPTサンプリング手順を利用する誘導パスワード生成の概念も導入する。
論文 参考訳(メタデータ) (2023-06-02T13:49:53Z) - Memorization for Good: Encryption with Autoregressive Language Models [8.645826579841692]
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰的LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
論文 参考訳(メタデータ) (2023-05-15T05:42:34Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。