論文の概要: TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
- arxiv url: http://arxiv.org/abs/2505.11988v1
- Date: Sat, 17 May 2025 12:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.975212
- Title: TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
- Title(参考訳): TechniqueRAG:サイバー脅威インテリジェンステキストにおける逆テクニックアノテーションのための検索拡張生成
- Authors: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez,
- Abstract要約: セキュリティテキストにおける敵のテクニックの正確な識別は、効果的なサイバー防御に不可欠である。
既存のメソッドは基本的なトレードオフに直面している。ドメインの精度が限られているジェネリックモデルに依存するか、リソース集約的なパイプラインを必要とする。
本稿では,このギャップを埋めるドメイン固有検索拡張生成(RAG)フレームワークであるTechnologyRAGを提案する。
- 参考スコア(独自算出の注目度): 11.417612899344697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately identifying adversarial techniques in security texts is critical for effective cyber defense. However, existing methods face a fundamental trade-off: they either rely on generic models with limited domain precision or require resource-intensive pipelines that depend on large labeled datasets and task-specific optimizations, such as custom hard-negative mining and denoising, resources rarely available in specialized domains. We propose TechniqueRAG, a domain-specific retrieval-augmented generation (RAG) framework that bridges this gap by integrating off-the-shelf retrievers, instruction-tuned LLMs, and minimal text-technique pairs. Our approach addresses data scarcity by fine-tuning only the generation component on limited in-domain examples, circumventing the need for resource-intensive retrieval training. While conventional RAG mitigates hallucination by coupling retrieval and generation, its reliance on generic retrievers often introduces noisy candidates, limiting domain-specific precision. To address this, we enhance retrieval quality and domain specificity through zero-shot LLM re-ranking, which explicitly aligns retrieved candidates with adversarial techniques. Experiments on multiple security benchmarks demonstrate that TechniqueRAG achieves state-of-the-art performance without extensive task-specific optimizations or labeled data, while comprehensive analysis provides further insights.
- Abstract(参考訳): セキュリティテキストにおける敵のテクニックの正確な識別は、効果的なサイバー防御に不可欠である。
しかし、既存の手法は基本的なトレードオフに直面している。ドメインの精度が限られている汎用モデルに依存するか、大きなラベル付きデータセットとタスク固有の最適化に依存するリソース集約パイプラインを必要とする。
本稿では,このギャップを埋めるドメイン固有検索拡張生成(RAG)フレームワークであるTechnologyRAGを提案する。
提案手法は,ドメイン内の限られた例に対して生成部品のみを微調整し,資源集約型検索学習の必要性を回避することで,データの不足に対処する。
従来のRAGは、結合検索と生成による幻覚を緩和するが、ジェネリックレトリバーへの依存は、しばしばノイズの多い候補を導入し、ドメイン固有の精度を制限する。
これを解決するため、ゼロショットLLMの再ランク付けにより検索品質とドメイン特異性を高め、抽出した候補を逆方向の手法で明示的に整列する。
複数のセキュリティベンチマークの実験では、TechnologyRAGはタスク固有の最適化やラベル付きデータなしで最先端のパフォーマンスを達成する一方で、包括的な分析はさらなる洞察を提供する。
関連論文リスト
- UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Chain-of-Rank: Enhancing Large Language Models for Domain-Specific RAG in Edge Device [20.666893617591136]
ランクのチェーン(CoR)は、入力された外部文書の信頼性の単純なランキングに焦点を移す。
我々は、ベンチマークで最先端のSOTA(State-of-the-art)結果を取得し、その有効性を分析する。
論文 参考訳(メタデータ) (2025-02-21T01:28:12Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。
LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。
SMART-SLICはドメイン固有のLLMフレームワークである。
論文 参考訳(メタデータ) (2024-10-03T17:40:55Z) - Deep Generic Representations for Domain-Generalized Anomalous Sound Detection [10.18337180909434]
ドメイン一般化ASDのためのkNNと組み合わされた大規模事前学習型特徴抽出器の汎用的特徴表現を利用するtextitGenRepを提案する。
textitGenRepは、DCASE2023T2 Evalセットで73.79%のオフィシャルスコアを持つラベル付きデータを必要とせずに、最高のOEベースのアプローチより優れている。
論文 参考訳(メタデータ) (2024-09-08T09:20:30Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。