論文の概要: From IOCs to Regex: Automating CTI Operationalization for SOC with LLMs
- arxiv url: http://arxiv.org/abs/2604.12228v1
- Date: Tue, 14 Apr 2026 03:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.210478
- Title: From IOCs to Regex: Automating CTI Operationalization for SOC with LLMs
- Title(参考訳): IOCからレセックスへ:LCMによるSOCのCTI運用の自動化
- Authors: Pei-Yu Tseng, Lan Zhang, ZihDwo Yeh, Xiaoyan Sun, Xushu Dai, Peng Liu,
- Abstract要約: 本稿では,IOCの指標を正規表現に変換する自動システムであるIOCRegex-genを紹介する。
IOCRegex-genの平均ヒット率は99.1%、偽陽性率は0.8%であり、大規模CTI処理と自動生成の有効性を示す。
- 参考スコア(独自算出の注目度): 10.073504563975394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber Threat Intelligence (CTI) reports contain Indicators of Compromise (IOCs) that are critical for security operations. To operationalize these IOCs across heterogeneous logs, analysts often convert them into regular expressions (regexes) for tasks such as digital forensics, log parsing, and SIEM rule creation. However, regex construction is still largely manual, requiring analysts to extract IOCs from CTI reports and transform them into syntactically valid and semantically precise patterns. This process is slow, error-prone, and increasingly impractical as CTI volumes grow. Although recent studies have applied Large Language Models (LLMs) to IOC extraction, they typically output plain strings rather than regexes, limiting practical deployment. Plain IOCs cannot effectively capture variations in system context, log format, or attacker behavior. To address this gap, we propose IOCRegex-gen, a fully automated LLM-based regex generation system that converts IOCs into regexes. The system introduces two key innovations: (i) a group-aware mechanism that identifies which IOC segments should be represented as capture or non-capture groups, and (ii) an iterative reasoning and multi-stage validation pipeline to ensure syntactic validity and semantic correctness. Experiments on over 3,000 real CTI reports and 2,400 ground-truth strings from the MITRE ATT&CK Evaluation framework show that IOCRegex-gen achieves an average hit rate of 99.1% and a false-positive rate of only 0.8%, demonstrating its effectiveness for large-scale CTI processing and automated regex generation.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)の報告には、セキュリティ運用に不可欠なIOC(Indicators of Compromise)が含まれている。
これらのIOCを不均一なログで運用するために、アナリストはしばしばそれらをデジタル法医学、ログ解析、SIEMルール作成などのタスクの正規表現(レジェックス)に変換する。
しかし、Regexの構築は依然として手作業であり、アナリストはCTIレポートからIOCを抽出し、それらを構文的に有効で意味論的に正確なパターンに変換する必要がある。
このプロセスは遅く、エラーが発生し、CTIボリュームが増加するにつれて、ますます非現実的になる。
近年の研究では、IOC抽出にLarge Language Models (LLMs) を適用しているが、典型的にはregexesではなくプレーン文字列を出力し、実際の展開を制限している。
通常のIOCでは、システムコンテキストやログフォーマット、攻撃行動のバリエーションを効果的にキャプチャすることはできない。
このギャップに対処するため,IOCをレゲックスに変換するLLMベースの完全自動化されたレゲックス生成システムであるIOCRegex-genを提案する。
システムには2つの重要なイノベーションが導入されている。
i)IOCのどのセグメントをキャプチャーまたは非キャプチャーグループとして表現すべきかを識別するグループ認識機構
(II)構文的妥当性と意味的正当性を確保するための反復的推論および多段階検証パイプライン。
MITRE ATT&CK評価フレームワークの3000以上の実CTIレポートと2,400本の接地木を実験した結果、IOCRegex-genは平均ヒット率99.1%、偽陽性率はわずか0.8%に達し、大規模なCTI処理と自動リジェクス生成に有効であることが示されている。
関連論文リスト
- AICCE: AI Driven Compliance Checker Engine [0.26385121748044166]
AICCE(Artificial Intelligence Driven Compliance Checker Engine)は、二重アーキテクチャ推論と検索拡張生成を組み合わせた新しい生成システムである。
AICCEは、決定信頼性を高めるための議論のメカニズムにより、16個の最先端生成モデルにわたるIPv6パケットサンプルでテストした場合、精度とF1スコアを最大99%達成する。
論文 参考訳(メタデータ) (2026-04-03T00:45:24Z) - MALCDF: A Distributed Multi-Agent LLM Framework for Real-Time Cyber [0.0]
4つの大規模言語モデル(LLM)エージェント-検出、インテリジェンス、応答、分析をリアルタイムで協調する。
エージェントはセキュア通信層(SCL)上で暗号化されたオントロジー対応のメッセージと通信し、監査に優しい出力を生成する。
MALCDFは検出精度が90.0%、F1スコア85.7%、偽陽性率9.1%に達し、1時間あたり平均6.8秒の遅延がある。
論文 参考訳(メタデータ) (2025-12-16T19:08:12Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - Extracting Events Like Code: A Multi-Agent Programming Framework for Zero-Shot Event Extraction [21.08753833036094]
本稿では,AEC(Agent-Event-Coder)について紹介する。
AECはZSEEを特別なサブタスク(検索、計画、コーディング、検証)に分解する。
5つの異なる領域と6つのLSMにわたる実験により、AECはゼロショットベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-17T08:17:15Z) - $\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。
texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文 参考訳(メタデータ) (2025-03-03T18:33:46Z) - SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。
SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。