論文の概要: Minerva: Reinforcement Learning with Verifiable Rewards for Cyber Threat Intelligence LLMs
- arxiv url: http://arxiv.org/abs/2602.00513v1
- Date: Sat, 31 Jan 2026 05:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.228939
- Title: Minerva: Reinforcement Learning with Verifiable Rewards for Cyber Threat Intelligence LLMs
- Title(参考訳): Minerva: サイバー脅威インテリジェンスLLMのための検証可能なリワードによる強化学習
- Authors: Md Tanvirul Alam, Aritran Piplai, Ionut Cardei, Nidhi Rastogi, Peter J Worth,
- Abstract要約: 大規模言語モデル(LLM)は、ノイズの多い非構造化されたセキュリティアーティファクトを自動化可能な表現に変換することを約束している。
CTI標準とコミュニティが保持するリソースは、モデル出力の決定論的検証を可能にする標準識別子とスキーマを定義する。
そこで本研究では,追加の検証トラジェクトリを生成し,それをモデルに戻す軽量な自己学習機構を提案する。
- 参考スコア(独自算出の注目度): 2.702990676892003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cyber threat intelligence (CTI) analysts routinely convert noisy, unstructured security artifacts into standardized, automation-ready representations. Although large language models (LLMs) show promise for this task, existing approaches remain brittle when producing structured CTI outputs and have largely relied on supervised fine-tuning (SFT). In contrast, CTI standards and community-maintained resources define canonical identifiers and schemas that enable deterministic verification of model outputs. We leverage this structure to study reinforcement learning with verifiable rewards (RLVR) for CTI tasks. We introduce \textit{Minerva}, a unified dataset and training pipeline spanning multiple CTI subtasks, each paired with task-specific verifiers that score structured outputs and identifier predictions. To address reward sparsity during rollout, we propose a lightweight self-training mechanism that generates additional verified trajectories and distills them back into the model. Experiments across LLM backbones show consistent improvements in accuracy and robustness over SFT across multiple benchmarks.
- Abstract(参考訳): サイバー脅威インテリジェンス(CTI)のアナリストは、ノイズの多い非構造化されたセキュリティアーティファクトを標準化された自動化対応の表現に変換する。
大規模言語モデル(LLM)はこのタスクを約束するが、既存のアプローチは構造化されたCTI出力を生成する際にも不安定であり、教師付き微調整(SFT)に大きく依存している。
対照的に、CTI標準とコミュニティが保持するリソースは、モデル出力の決定論的検証を可能にする標準識別子とスキーマを定義する。
我々は、この構造を利用して、CTIタスクに対する検証可能な報酬(RLVR)を用いて強化学習を研究する。
我々は、複数のCTIサブタスクにまたがる統合データセットとトレーニングパイプラインである‘textit{Minerva} を紹介し、それぞれに、構造化出力と識別子予測をスコアするタスク固有の検証器をペアリングする。
ロールアウト時の報酬の分散性に対処するために,追加の検証トラジェクトリを生成し,それをモデルに蒸留する軽量な自己学習機構を提案する。
LLMバックボーンを用いた実験では、複数のベンチマークでSFTよりも精度と堅牢性が一貫した改善が見られた。
関連論文リスト
- From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs [38.3239023969819]
大きな言語モデル(LLM)は多様なアプリケーションのための強力なツールとして登場した。
ツール・コンプリート・アタック(TCA)と呼ばれる新しい種類の脆弱性を特定し,提案する。
これらの脆弱性に対処するために、コンテキスト認識階層学習(CAHL)を導入します。
論文 参考訳(メタデータ) (2025-12-03T12:10:21Z) - Dynamic Reward Scaling for Multivariate Time Series Anomaly Detection: A VAE-Enhanced Reinforcement Learning Approach [1.332091725929965]
本稿では、変分オートエンコーダ(VAE)、LSTMベースのディープQネットワーク(DQN)、動的報酬形成、これらの問題に一元化学習フレームワークで対処するためのアクティブ学習モジュールを組み合わせた深部強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-15T20:36:20Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - AttackSeqBench: Benchmarking Large Language Models in Analyzing Attack Sequences within Cyber Threat Intelligence [17.234214109636113]
サイバー脅威インテリジェンス(CTI)は、敵の行動と行動可能な知識への意図に関する証拠を合成し、サイバー脅威の観察を文書化している。
CTIレポートの非構造的かつ冗長な性質は、セキュリティ実践者が手動でこのようなシーケンスを抽出し分析する上で大きな課題となる。
大規模言語モデル(LLM)は、エンティティ抽出や知識グラフ構築などのサイバーセキュリティタスクにおいて有望であるが、それらの理解と行動シーケンスに対する推論能力はいまだ探索されていない。
論文 参考訳(メタデータ) (2025-03-05T04:25:21Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Meta-learning framework with applications to zero-shot time-series
forecasting [82.61728230984099]
この研究は幅広いメタラーニングフレームワークを使って肯定的な証拠を提供する。
残余接続はメタラーニング適応機構として機能する。
我々は、ソースTSデータセット上でニューラルネットワークをトレーニングし、異なるターゲットTSデータセット上で再トレーニングすることなくデプロイできることを示します。
論文 参考訳(メタデータ) (2020-02-07T16:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。