論文の概要: LLMHoney: A Real-Time SSH Honeypot with Large Language Model-Driven Dynamic Response Generation
- arxiv url: http://arxiv.org/abs/2509.01463v1
- Date: Mon, 01 Sep 2025 13:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.714839
- Title: LLMHoney: A Real-Time SSH Honeypot with Large Language Model-Driven Dynamic Response Generation
- Title(参考訳): LLMHoney: 大規模言語モデル駆動型動的応答生成を備えたリアルタイムSSHHoneypot
- Authors: Pranjay Malhotra,
- Abstract要約: 本稿では,Large Language Models (LLMs) を利用してリアルタイムに動的コマンド出力を生成するSSHハニーポット LLMHoney について述べる。
LLMは辞書ベースの仮想ファイルシステムを統合し、低レイテンシで共通コマンドを処理する。
精度(exact-match, Cosine similarity, Jaro-Winkler similarity, Levenshtein similarity and BLEU score)、応答遅延、メモリオーバーヘッドなどを含む総合的な指標を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cybersecurity honeypots are deception tools for engaging attackers and gather intelligence, but traditional low or medium-interaction honeypots often rely on static, pre-scripted interactions that can be easily identified by skilled adversaries. This Report presents LLMHoney, an SSH honeypot that leverages Large Language Models (LLMs) to generate realistic, dynamic command outputs in real time. LLMHoney integrates a dictionary-based virtual file system to handle common commands with low latency while using LLMs for novel inputs, achieving a balance between authenticity and performance. We implemented LLMHoney using open-source LLMs and evaluated it on a testbed with 138 representative Linux commands. We report comprehensive metrics including accuracy (exact-match, Cosine Similarity, Jaro-Winkler Similarity, Levenshtein Similarity and BLEU score), response latency and memory overhead. We evaluate LLMHoney using multiple LLM backends ranging from 0.36B to 3.8B parameters, including both open-source models and a proprietary model(Gemini). Our experiments compare 13 different LLM variants; results show that Gemini-2.0 and moderately-sized models Qwen2.5:1.5B and Phi3:3.8B provide the most reliable and accurate responses, with mean latencies around 3 seconds, whereas smaller models often produce incorrect or out-of-character outputs. We also discuss how LLM integration improves honeypot realism and adaptability compared to traditional honeypots, as well as challenges such as occasional hallucinated outputs and increased resource usage. Our findings demonstrate that LLM-driven honeypots are a promising approach to enhance attacker engagement and collect richer threat intelligence.
- Abstract(参考訳): サイバーセキュリティのハニーポットは攻撃者を誘惑し、知性を集めるための偽装ツールであるが、伝統的な低または中規模のハニーポットは、しばしば、熟練した敵によって容易に識別できる静的で事前記述された相互作用に依存している。
本稿では,Large Language Models (LLMs) を利用してリアルタイムに動的コマンド出力を生成するSSHハニーポット LLMHoney について述べる。
LLMHoneyは辞書ベースの仮想ファイルシステムを統合し、新しい入力にLLMを使用しながら低レイテンシで共通コマンドを処理する。
オープンソース LLM を用いて LLMHoney を実装し,138 個のLinux コマンドでテストベッド上で評価した。
精度(exact-match, Cosine similarity, Jaro-Winkler similarity, Levenshtein similarity and BLEU score)、応答遅延、メモリオーバーヘッドなどを含む総合的な指標を報告する。
我々は、オープンソースモデルとプロプライエタリモデル(Gemini)の両方を含む0.36Bから3.8Bのパラメータを含む複数のLCMバックエンドを用いてLCMHoneyを評価する。
実験の結果、ジェミニ2.0と中程度のモデル Qwen2.5:1.5B と Phi3:3.8B が最も信頼性が高く正確な応答を提供し、平均レイテンシは3秒程度であるのに対し、小さいモデルでは不正確または不正確な出力が生じることが示されている。
また,従来のハニーポットに比べてLLM統合がハニーポットリアリズムと適応性をどのように改善するか,また時折幻覚出力や資源利用の増加といった課題についても論じる。
以上の結果から,LSMを駆使したハニーポットは攻撃のエンゲージメントを高め,よりリッチな脅威知能を収集するための有望なアプローチであることが示唆された。
関連論文リスト
- Consistency Is the Key: Detecting Hallucinations in LLM Generated Text By Checking Inconsistencies About Key Facts [21.081815261690444]
大規模言語モデル(LLM)は、しばしば幻覚を生じさせ、現実の知識に根ざしていない事実的誤りのテキストを生成する。
これは、医療、金融、顧客サポートといった分野に深刻なリスクをもたらす。
外部知識ベースを活用できない効率的な検出手法であるCONFACTCHECKを紹介する。
論文 参考訳(メタデータ) (2025-11-15T14:33:02Z) - Test-Time Warmup for Multimodal Large Language Models [2.526814143603023]
本稿では,弱い教師付き補助タスクからのデータを活用することで,テストインスタンス毎のMLLMを適応させるテスト時間ワームアップ手法を提案する。
MMMUでは4.03%,VQA-Radでは5.28%,Llama-Vision-Instructモデルでは1.63%であった。
論文 参考訳(メタデータ) (2025-09-12T18:58:42Z) - LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。