論文の概要: SecGoal: A Benchmark for Security Goal Extraction and Formalization from Protocol Documents
- arxiv url: http://arxiv.org/abs/2604.27601v1
- Date: Thu, 30 Apr 2026 08:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.005932
- Title: SecGoal: A Benchmark for Security Goal Extraction and Formalization from Protocol Documents
- Title(参考訳): SecGoal:プロトコルドキュメントからのセキュリティ目標の抽出と形式化のためのベンチマーク
- Authors: Dawei Huang, Hui Li, Haonan Feng, Jingjing Guan, Yueshuang Jiao, Bo Jia,
- Abstract要約: SecGoalは15の広くデプロイされたプロトコルドキュメントをカバーする最初のエキスパートアノテーション付きベンチマークである。
我々は、タスクをコンテキスト対応のゴール抽出に分解するAI支援フレームワークであるSecGoalとAIFGを紹介する。
- 参考スコア(独自算出の注目度): 3.363429643522915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Formal verification provides rigorous guarantees for cryptographic security, yet automating the extraction and formalization of security goals from natural language protocol documents remains a major bottleneck, compounded by the scarcity of expert-annotated resources and integrated frameworks bridging unstructured text and symbolic logic. We introduce SecGoal, the first expert-annotated benchmark covering 15 widely deployed protocol documents, including 5G-AKA and TLS 1.3, and AIFG, an AI-assisted framework that decomposes the task into context-aware goal extraction and retrieval-augmented formalization. We conduct a comprehensive evaluation to assess whether contemporary LLMs are ready to automate this pipeline. Our results reveal a pronounced precision-recall imbalance: frontier models, such as Gemini 2.5-Pro, achieve high recall but precision below 15%, frequently misclassifying operational text as security goals. In contrast, instruction tuning on SecGoal enables compact models with 7B/9B parameters to achieve F1-scores above 80%, substantially outperforming larger general-purpose models. Our work establishes a foundational dataset and reproducible baseline for automated formal protocol analysis.
- Abstract(参考訳): 形式検証は暗号セキュリティの厳格な保証を提供するが、自然言語プロトコルの文書からのセキュリティ目標の抽出と形式化を自動化することは、専門家による注釈付きリソースの不足と、構造化されていないテキストとシンボリックロジックをブリッジする統合フレームワークによって、依然として大きなボトルネックとなっている。
5G-AKAとTLS 1.3を含む15の広くデプロイされたプロトコル文書と、タスクをコンテキスト対応のゴール抽出と検索強化の形式化に分解するAI支援フレームワークであるAIFGについて紹介する。
我々は,現代のLLMがパイプラインの自動化の準備が整っているかどうかを総合的に評価する。
Gemini 2.5-Proのようなフロンティアモデルは、高いリコールと精度を15%以下に達成し、しばしば運用テキストをセキュリティ目標として誤分類する。
対照的にSecGoalの命令チューニングは、7B/9Bパラメータを持つコンパクトモデルでF1スコアを80%以上達成し、より大規模な汎用モデルよりも大幅に優れている。
本研究は,自動形式プロトコル解析のための基礎的データセットと再現可能なベースラインを確立する。
関連論文リスト
- Auto-ART: Structured Literature Synthesis and Automated Adversarial Robustness Testing [0.0]
我々は7つの補完プロトコルを用いて9つのピアレビューコーパスソースを分析した。
特定ギャップを運用するオープンソースのフレームワークであるAuto-ARTを紹介します。
RobustBenchの実証検証では、Auto-ARTの事前スクリーニングでは、フラグ付きケースの92%で勾配マスキングが特定されている。
論文 参考訳(メタデータ) (2026-04-22T15:46:11Z) - GLM-OCR Technical Report [65.42028025507491]
GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-03-11T15:55:47Z) - LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems [0.0]
現在のプロトコルでは、モデルレベルのプロパティを第一級プリミティブとして公開していない。
5つのメカニズムを導入したAIネイティブ通信プロトコルであるLDM Delegate Protocol(LDP)を提案する。
アイデンティティを意識したルーティングは、デリゲートの特殊化によって、簡単なタスクの12倍のレイテンシを実現するが、小さなデリゲートプールの集約品質は向上しない。
論文 参考訳(メタデータ) (2026-03-09T19:13:17Z) - SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy [12.070587084660096]
走査型プローブ顕微鏡(SPM)に特化して設計されたPhDレベルのマルチモーダルベンチマークを提案する。
AGS(Anchor-Gated Sieve)技術を用いて,2023年から2025年にかけて発行されたarXivとジャーナル論文から高価値画像テキストペアを効率よく抽出する。
当社のパイプラインは,高データセットの純度を維持しながら,極端なトークン保存を実現しています。
論文 参考訳(メタデータ) (2026-02-26T13:08:56Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Bridging LLM Planning Agents and Formal Methods: A Case Study in Plan Verification [5.177308274872149]
我々は、自然言語計画と予測行動の整合性を評価するための新しい枠組みを、クリプキ構造と線形時間論理(LTL)に変換することによって導入する。
このフレームワークをPlanBench計画検証データセットの簡易バージョンで体系的に評価し、精度、精度、リコール、F1スコアなどの指標について報告する。
論文 参考訳(メタデータ) (2025-10-03T19:46:55Z) - ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。
我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-09-27T22:36:42Z) - CoVeR: Conformal Calibration for Versatile and Reliable Autoregressive Next-Token Prediction [49.09876340754804]
conformsctextCoVeRは、探索効率と多目的軌跡の必要性のバランスをとるモデルフリーデコード戦略である。
本研究では,conformsctextCoVeRがコンパクトな検索空間を同時に維持し,所望の軌跡に対して高いカバレッジの確率を保証することを示す。
論文 参考訳(メタデータ) (2025-09-05T01:07:12Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。