論文の概要: Retrieval Augmented Generation Based LLM Evaluation For Protocol State Machine Inference With Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2502.15727v1
- Date: Thu, 30 Jan 2025 01:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 04:52:27.281343
- Title: Retrieval Augmented Generation Based LLM Evaluation For Protocol State Machine Inference With Chain-of-Thought Reasoning
- Title(参考訳): チェイン・オブ・ソート推論によるプロトコル状態マシン推論のための検索拡張型LLM評価
- Authors: Youssef Maklad, Fares Wael, Wael Elsersy, Ali Hamdi,
- Abstract要約: 本稿では,プロトコルファジングのためのネットワークパケットシード生成におけるRAGに基づくエージェント型大規模言語モデル(LLM)アーキテクチャの効率性を評価するための新しい手法を提案する。
実験の結果, BLEU, ROUGE, WERでは, それぞれ18.19%, 14.81%, 23.45%の大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a novel approach to evaluate the efficiency of a RAG-based agentic Large Language Model (LLM) architecture in network packet seed generation for network protocol fuzzing. Enhanced by chain-of-thought (COT) prompting techniques, the proposed approach focuses on the improvement of the seeds structural quality in order to guide protocol fuzzing frameworks through a wide exploration of the protocol state space. Our method leverages RAG and text embeddings in a two-stages. In the first stage, the agent dynamically refers to the Request For Comments (RFC) documents knowledge base for answering queries regarding the protocol Finite State Machine (FSM), then it iteratively reasons through the retrieved knowledge, for output refinement and proper seed placement. In the second stage, we evaluate the response structure quality of the agent's output, based on metrics as BLEU, ROUGE, and Word Error Rate (WER) by comparing the generated packets against the ground truth packets. Our experiments demonstrate significant improvements of up to 18.19%, 14.81%, and 23.45% in BLEU, ROUGE, and WER, respectively, over baseline models. These results confirm the potential of such approach, improving LLM-based protocol fuzzing frameworks for the identification of hidden vulnerabilities.
- Abstract(参考訳): 本稿では,ネットワークプロトコルファジングのためのネットワークパケットシード生成におけるRAGに基づくエージェント型大規模言語モデル(LLM)アーキテクチャの効率性を評価するための新しい手法を提案する。
チェーン・オブ・シンクレット(COT)の促進技術により,提案手法は,プロトコル状態空間の広範な探索を通じて,プロトコルファジイングフレームワークをガイドするために,種子の構造的品質の向上に重点を置いている。
提案手法は2段階のRAGとテキスト埋め込みを利用する。
最初の段階では、エージェントは、プロトコルのFSM(Finite State Machine)に関するクエリに応答するためのRFC文書知識ベースを動的に参照する。
第2段階では, エージェントの出力の応答構造を, BLEU, ROUGE, Word Error Rate (WER) として評価する。
実験の結果, BLEU, ROUGE, WERでは, それぞれ18.19%, 14.81%, 23.45%の大幅な改善が見られた。
これらの結果は,LSMベースのプロトコルファジィングフレームワークを改良し,隠れた脆弱性を識別する手法の可能性を確認した。
関連論文リスト
- Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - On Unified Prompt Tuning for Request Quality Assurance in Public Code Review [19.427661961488404]
We propose a unified framework called UniPCR to complete developer-based request quality assurance (e., predicting request need and recommending tags subtask) under a Masked Language Model (MLM)。
2011-2022年までのPublic Code Reviewデータセットの実験結果は、我々のUniPCRフレームワークが2つのサブタスクに適応し、要求品質保証のための最先端の手法で同等の精度に基づく結果より優れていることを示している。
論文 参考訳(メタデータ) (2024-04-11T17:41:28Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Pointwise Mutual Information Based Metric and Decoding Strategy for
Faithful Generation in Document Grounded Dialogs [17.691689809414843]
既存のメトリクスは、生成されたレスポンスとドキュメントの内容の類似度を測定します。
本稿では,生成した応答とソース文書間のPMI(Conditional Point-wise Mutual Information)を利用する新しいメトリクスを提案する。
PMIは、文書が生成した応答に影響を与える範囲を定量化する。
我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。
論文 参考訳(メタデータ) (2023-05-20T13:34:34Z) - Parallel Hierarchical Transformer with Attention Alignment for
Abstractive Multi-Document Summarization [4.035753155957699]
MDS (Abstractive Multi-Document Summarization) は、その長大かつリンクされたソースの表現とカバレッジに課題をもたらす。
本研究は,MDSのアライメントを考慮した並列階層変換器(PHT)を開発した。
論文 参考訳(メタデータ) (2022-08-16T17:02:48Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Contextual Fine-to-Coarse Distillation for Coarse-grained Response
Selection in Open-Domain Conversations [48.046725390986595]
オープンドメイン会話における粗粒度応答選択のための文脈ファイン・ツー・コアス(CFC)蒸留モデルを提案する。
提案モデルの性能を評価するため,RedditコメントダンプとTwitterコーパスに基づく2つの新しいデータセットを構築した。
論文 参考訳(メタデータ) (2021-09-24T08:22:35Z) - RRPN++: Guidance Towards More Accurate Scene Text Detection [0.30458514384586394]
本稿では, RRPN ベースのモデルの可能性を活用するために RRPN++ を提案する。
RRPNに基づいて、第1段階の提案を生成するために、アンカーフリーピラミッド提案ネットワーク(APPN)を提案する。
第2段階では、検出部と認識部の両方を組み込んでマルチタスク学習を行う。
論文 参考訳(メタデータ) (2020-09-28T08:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。