論文の概要: CyberLLM-FINDS 2025: Instruction-Tuned Fine-tuning of Domain-Specific LLMs with Retrieval-Augmented Generation and Graph Integration for MITRE Evaluation
- arxiv url: http://arxiv.org/abs/2601.06779v1
- Date: Sun, 11 Jan 2026 05:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.978966
- Title: CyberLLM-FINDS 2025: Instruction-Tuned Fine-tuning of Domain-Specific LLMs with Retrieval-Augmented Generation and Graph Integration for MITRE Evaluation
- Title(参考訳): CyberLLM-FINDS 2025:Retrieval-Augmented Generationとグラフ統合によるドメイン特化LDMのインストラクション調整によるMITRE評価
- Authors: Vasanth Iyer, Leonardo Bobadilla, S. S. Iyengar,
- Abstract要約: 本研究は,Gemma-2Bモデルをドメイン固有のサイバーセキュリティLLMに微調整する手法を提案する。
本稿では,データセット作成,微調整,合成データ生成のプロセスについて詳述するとともに,脅威検出,法医学的調査,および攻撃解析における実世界の応用への示唆について述べる。
- 参考スコア(独自算出の注目度): 0.054619385369457214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as Gemma-2B have shown strong performance in various natural language processing tasks. However, general-purpose models often lack the domain expertise required for cybersecurity applications. This work presents a methodology to fine-tune the Gemma-2B model into a domain-specific cybersecurity LLM. We detail the processes of dataset preparation, fine-tuning, and synthetic data generation, along with implications for real-world applications in threat detection, forensic investigation, and attack analysis. Experiments highlight challenges in prompt length distribution during domain-specific fine-tuning. Uneven prompt lengths limit the model's effective use of the context window, constraining local inference to 200-400 tokens despite hardware support for longer sequences. Chain-of-thought styled prompts, paired with quantized weights, yielded the best performance under these constraints. To address context limitations, we employed a hybrid strategy using cloud LLMs for synthetic data generation and local fine-tuning for deployment efficiency. To extend the evaluation, we introduce a Retrieval-Augmented Generation (RAG) pipeline and graph-based reasoning framework. This approach enables structured alignment with MITRE ATT&CK techniques through STIX-based threat intelligence, enhancing recall in multi-hop and long-context scenarios. Graph modules encode entity-neighborhood context and tactic chains, helping mitigate the constraints of short prompt windows. Results demonstrate improved model alignment with tactic, technique, and procedure (TTP) coverage, validating the utility of graph-augmented LLMs in cybersecurity threat intelligence applications.
- Abstract(参考訳): Gemma-2Bのような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて強い性能を示している。
しかしながら、汎用モデルは、サイバーセキュリティアプリケーションに必要なドメインの専門知識を欠いていることが多い。
本研究は,Gemma-2Bモデルをドメイン固有のサイバーセキュリティLLMに微調整する手法を提案する。
本稿では,データセット作成,微調整,合成データ生成のプロセスについて詳述するとともに,脅威検出,法医学的調査,および攻撃解析における実世界の応用への示唆について述べる。
実験は、ドメイン固有の微調整中の長さ分布の早急な制御における課題を浮き彫りにする。
不均一なプロンプト長は、より長いシーケンスに対するハードウェアサポートにもかかわらず、ローカル推論を200-400トークンに制限する、コンテキストウィンドウの効果的な使用を制限する。
鎖のスタイルのプロンプトは、量子化された重みと組み合わせて、これらの制約の下で最高のパフォーマンスを得た。
コンテキスト制限に対処するため,クラウドLLMを用いた合成データ生成と展開効率の局所微調整を併用したハイブリッド戦略を採用した。
評価を拡大するために、探索型拡張生成(RAG)パイプラインとグラフベースの推論フレームワークを導入する。
このアプローチは、STIXベースの脅威インテリジェンスを通じて、MITRE ATT&CK技術との構造化アライメントを可能にし、マルチホップおよびロングコンテキストシナリオでのリコールを強化する。
グラフモジュールはエンティティ隣のコンテキストと戦術チェーンをエンコードし、ショートプロンプトウィンドウの制約を軽減する。
その結果、戦術、技法、手順(TTP)によるモデルアライメントの改善が示され、サイバーセキュリティ脅威情報アプリケーションにおけるグラフ拡張LDMの有用性が検証された。
関連論文リスト
- GLOW: Graph-Language Co-Reasoning for Agentic Workflow Performance Prediction [51.83437071408662]
本稿では,AW性能予測のための統合フレームワークGLOWを提案する。
GLOWは、GNNのグラフ構造モデリング能力とLLMの推論能力を組み合わせる。
FLORA-Benchの実験では、GLOWは予測精度とランキングユーティリティにおいて最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-11T13:30:46Z) - GRAPHTEXTACK: A Realistic Black-Box Node Injection Attack on LLM-Enhanced GNNs [17.77340454481932]
最近の研究は、大規模言語モデルとグラフニューラルネットワーク(GNN)を統合し、セマンティクスと構造を共同でモデル化している。
GNNは構造的摂動に敏感であり、LSM由来の機能はインジェクションや対向的摂動に弱い。
これらのギャップに対処するために, LLM強化GNNに対する最初のブラックボックス, マルチモーダル, 中毒ノードインジェクション攻撃である Graph TEXTACK を提案する。
論文 参考訳(メタデータ) (2025-11-16T02:42:48Z) - Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文 参考訳(メタデータ) (2025-10-29T12:08:07Z) - AgentCyTE: Leveraging Agentic AI to Generate Cybersecurity Training & Experimentation Scenarios [0.19999259391104388]
本稿では,大規模言語モデルと決定論的・スキーマ制約付きネットワークエミュレーションを統合したフレームワークであるAgentCyTEを提案する。
AgentCyTEはシナリオの結果を観察し、正確性を検証し、リアリズムと一貫性を反復的に強化する。
論文 参考訳(メタデータ) (2025-10-29T05:44:12Z) - Intellectual Property in Graph-Based Machine Learning as a Service: Attacks and Defenses [57.9371204326855]
この調査は、GMLモデルとグラフ構造化データの両方のレベルで、脅威と防御の最初の分類を体系的に導入する。
本稿では,IP保護手法の有効性を評価し,ベンチマークデータセットのキュレートしたセットを導入し,その適用範囲と今後の課題について論じるシステム評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T07:37:52Z) - TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text [11.417612899344697]
セキュリティテキストにおける敵のテクニックの正確な識別は、効果的なサイバー防御に不可欠である。
既存のメソッドは基本的なトレードオフに直面している。ドメインの精度が限られているジェネリックモデルに依存するか、リソース集約的なパイプラインを必要とする。
本稿では,このギャップを埋めるドメイン固有検索拡張生成(RAG)フレームワークであるTechnologyRAGを提案する。
論文 参考訳(メタデータ) (2025-05-17T12:46:10Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。