Fugu-MT 論文翻訳(概要): Act as a Honeytoken Generator! An Investigation into Honeytoken Generation with Large Language Models

論文の概要: Act as a Honeytoken Generator! An Investigation into Honeytoken Generation with Large Language Models

arxiv url: http://arxiv.org/abs/2404.16118v1
Date: Wed, 24 Apr 2024 18:18:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 18:02:25.941722
Title: Act as a Honeytoken Generator! An Investigation into Honeytoken Generation with Large Language Models
Title（参考訳）: ハネトケン発生器としての行為! 大規模言語モデルを用いたハネトケン生成の検討
Authors: Daniel Reti, Norman Becker, Tillmann Angeli, Anasuya Chattopadhyay, Daniel Schneider, Sebastian Vollmer, Hans D. Schotten,
Abstract要約: この研究は、詐欺ベースの防衛戦略の重要な構成要素であるハネトケンの設計におけるスケーラビリティの課題に対処する。これらの制約を克服するために、この研究は大規模言語モデル(LLM)を用いて様々なハニトケンを作成するアプローチを体系的に研究する。ロボット.txtファイルとハニーワードの生成は、16のプロンプトビルディングブロックに基づいて、210の異なるプロンプト構造を体系的にテストするために使用された。
参考スコア（独自算出の注目度）: 3.976191782353992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the increasing prevalence of security incidents, the adoption of deception-based defense strategies has become pivotal in cyber security. This work addresses the challenge of scalability in designing honeytokens, a key component of such defense mechanisms. The manual creation of honeytokens is a tedious task. Although automated generators exists, they often lack versatility, being specialized for specific types of honeytokens, and heavily rely on suitable training datasets. To overcome these limitations, this work systematically investigates the approach of utilizing Large Language Models (LLMs) to create a variety of honeytokens. Out of the seven different honeytoken types created in this work, such as configuration files, databases, and log files, two were used to evaluate the optimal prompt. The generation of robots.txt files and honeywords was used to systematically test 210 different prompt structures, based on 16 prompt building blocks. Furthermore, all honeytokens were tested across different state-of-the-art LLMs to assess the varying performance of different models. Prompts performing optimally on one LLMs do not necessarily generalize well to another. Honeywords generated by GPT-3.5 were found to be less distinguishable from real passwords compared to previous methods of automated honeyword generation. Overall, the findings of this work demonstrate that generic LLMs are capable of creating a wide array of honeytokens using the presented prompt structures.
Abstract（参考訳）: セキュリティインシデントの増加に伴い、偽装ベースの防衛戦略の採用はサイバーセキュリティにおいて重要な役割を担っている。この研究は、このような防御機構の重要な構成要素であるハネトケンの設計におけるスケーラビリティの課題に対処する。ハネトケンのマニュアル作成は面倒な作業である。自動生成装置は存在するが、汎用性に欠けることが多く、特定の種類のハネトケンに特化しており、適切なトレーニングデータセットに大きく依存している。これらの制約を克服するために、この研究は大規模言語モデル(LLM)を用いて様々なハニトケンを作成するアプローチを体系的に研究する。設定ファイル、データベース、ログファイルなど、この作業で作成された7種類のハネトケンタイプのうち、最適なプロンプトを評価するために2つが使用された。ロボット.txtファイルとハニーワードの生成は、16のプロンプトビルディングブロックに基づいて、210の異なるプロンプト構造を体系的にテストするために使用された。さらに、全てのハニトケンは、異なるモデルの様々な性能を評価するために、異なる最先端のLLMで試験された。 1つの LLM 上で最適に実行されるプロンプトは、必ずしも他の LLM に対してうまく一般化するとは限らない。 GPT-3.5で生成されたハニーワードは、従来の自動ハニーワード生成法に比べて、実際のパスワードと区別しにくいことが判明した。全体として、本研究の成果は、ジェネリックLLMが提示されたプロンプト構造を用いて、幅広いハネトケンを生成可能であることを示している。

関連論文リスト

Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文参考訳（メタデータ） (2025-06-16T04:33:48Z)
Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文参考訳（メタデータ） (2025-06-09T14:55:00Z)
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文参考訳（メタデータ） (2025-05-12T01:26:50Z)
MAYA: Addressing Inconsistencies in Generative Password Guessing through a Unified Benchmark [0.35998666903987897]
我々は、統一的でカスタマイズ可能なプラグイン・アンド・プレイ・パスワード・ベンチマークフレームワークであるMAYAを紹介した。 MAYAは、生成パスワードゲスティングモデルを評価するための標準化されたアプローチを提供する。シーケンシャルモデルは、他の生成的アーキテクチャや従来のパスワード処理ツールよりも一貫して優れています。
論文参考訳（メタデータ） (2025-04-23T12:16:59Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
UTF:Undertrained Tokens as Fingerprints A Novel Approach to LLM Identification [23.164580168870682]
大型言語モデル(LLM)のフィンガープリントは、モデルのオーナシップの検証、信頼性の確保、誤用防止に不可欠である。本稿では,未学習トークンを利用したLDMのフィンガープリント手法を提案する。提案手法は,モデルの性能に最小限のオーバーヘッドと影響があり,対象モデルのオーナシップ識別にホワイトボックスアクセスを必要としない。
論文参考訳（メタデータ） (2024-10-16T07:36:57Z)
STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文参考訳（メタデータ） (2024-09-11T13:49:48Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文参考訳（メタデータ） (2023-09-08T10:44:19Z)
Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-06T06:27:33Z)
Memorization for Good: Encryption with Autoregressive Language Models [8.645826579841692]
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。自己回帰的LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
論文参考訳（メタデータ） (2023-05-15T05:42:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。