論文の概要: From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15
- arxiv url: http://arxiv.org/abs/2510.17883v2
- Date: Sun, 26 Oct 2025 07:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.585615
- Title: From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15
- Title(参考訳): 語から言葉へ:ゼロ/Few-Shot LLMはネットワーク侵入を検知できるか? UNSW-NB15の文法制約による校正評価
- Authors: Mohammad Abdul Rehman, Syed Imad Ali Shah, Abbas Anwar, Noor Islam,
- Abstract要約: 大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究では、各ネットワークフローをコンパクトなテキストレコードに変換し、軽量でドメインにインスパイアされたフラグで拡張することで、プロンプトオンリーなアプローチを評価する。
ゼロショット,命令誘導,スプリットショットを比較して,同一のスプリット下での強い神経ベースライン,精度,精度,リコール,F1,マクロスコアを比較した。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can reason over natural-language inputs, but their role in intrusion detection without fine-tuning remains uncertain. This study evaluates a prompt-only approach on UNSW-NB15 by converting each network flow to a compact textual record and augmenting it with lightweight, domain-inspired boolean flags (asymmetry, burst rate, TTL irregularities, timer anomalies, rare service/state, short bursts). To reduce output drift and support measurement, the model is constrained to produce structured, grammar-valid responses, and a single decision threshold is calibrated on a small development split. We compare zero-shot, instruction-guided, and few-shot prompting to strong tabular and neural baselines under identical splits, reporting accuracy, precision, recall, F1, and macro scores. Empirically, unguided prompting is unreliable, while instructions plus flags substantially improve detection quality; adding calibrated scoring further stabilizes results. On a balanced subset of two hundred flows, a 7B instruction-tuned model with flags reaches macro-F1 near 0.78; a lighter 3B model with few-shot cues and calibration attains F1 near 0.68 on one thousand examples. As the evaluation set grows to two thousand flows, decision quality decreases, revealing sensitivity to coverage and prompting. Tabular baselines remain more stable and faster, yet the prompt-only pipeline requires no gradient training, produces readable artifacts, and adapts easily through instructions and flags. Contributions include a flow-to-text protocol with interpretable cues, a calibration method for thresholding, a systematic baseline comparison, and a reproducibility bundle with prompts, grammar, metrics, and figures.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究は,UNSW-NB15に対する迅速なアプローチとして,各ネットワークフローをコンパクトなテキストレコードに変換し,軽量なドメインインスパイアされたブール旗(非対称性,バーストレート,TL不規則性,タイマー異常,稀なサービス/状態,短いバースト)で拡張することで評価する。
出力のドリフトと支持測定を低減するため、モデルを制約して構造化した文法価応答を生成し、小さな開発分割に対して単一の決定しきい値を校正する。
我々は、ゼロショット、命令誘導、少数ショットを比較し、同じ分割の下で強い表状および神経ベースラインに刺激し、精度、精度、リコール、F1、マクロスコアを報告する。
経験的に、誘導不能なプロンプトは信頼できないが、命令とフラグは検出品質を大幅に改善し、校正されたスコアリングが結果をさらに安定化させる。
200フローのバランスの取れたサブセットでは、フラグを持つ7B命令調整モデルが0.78付近でマクロF1に達する。
評価セットが2,000フローに増加すると、決定品質が低下し、カバレッジに対する感受性が明らかになり、促される。
タブラルベースラインはより安定して高速に維持されるが、プロンプトのみのパイプラインでは勾配トレーニングを必要とせず、読みやすいアーティファクトを生成し、命令やフラグを通じて容易に適応できる。
コントリビューションには、解釈可能なキューを備えたフロー・トゥ・テキストプロトコル、しきい値のキャリブレーション方法、体系的なベースライン比較、プロンプト、文法、メトリクス、フィギュアを備えた再現性バンドルが含まれる。
関連論文リスト
- Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry [5.1511135538176]
アクティブラーニング(AL)は、情報的なサンプルを優先順位付けすることでアノテーションのコストを削減することを約束するが、ラベルがうるさい場合やデータ分散がシフトした場合、その信頼性は低下する。
本稿では,深層ネットワークの創発的幾何学的規則性を活用し,信頼できない監視に対処するフレームワークである能動学習(NCAL-R)を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:50:31Z) - Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds [0.0]
フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-17T22:08:33Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Beyond the Next Token: Towards Prompt-Robust Zero-Shot Classification via Efficient Multi-Token Prediction [12.92060812931049]
プロンプトの微妙な変化は、モデルの性能に重大な違いをもたらす可能性がある。
複数位置にわたるトークン確率を予測する新しい手法であるPlaceholding Parallel Prediction (P3)を提案する。
実験では精度が向上し、プロンプト間の標準偏差が最大98%減少した。
論文 参考訳(メタデータ) (2025-04-04T04:39:51Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff [49.75167556773752]
ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
論文 参考訳(メタデータ) (2023-09-20T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。