Fugu-MT 論文翻訳(概要): CyberMaskQA: A Privacy-Aware Benchmark for Evaluating Large Language Models in Cybersecurity Question Answering

論文の概要: CyberMaskQA: A Privacy-Aware Benchmark for Evaluating Large Language Models in Cybersecurity Question Answering

arxiv url: http://arxiv.org/abs/2605.24765v1
Date: Sat, 23 May 2026 22:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.373899
Title: CyberMaskQA: A Privacy-Aware Benchmark for Evaluating Large Language Models in Cybersecurity Question Answering
Title（参考訳）: CyberMaskQA: サイバーセキュリティに関する質問に対する大規模言語モデル評価のためのプライバシ意識ベンチマーク
Authors: Matilda Gaddi, Jin Noh, Onat Gungor, Tajana Rosing,
Abstract要約: CYBERMASKQAは、主要なセキュリティドメインをカバーするプライバシ対応のQAベンチマークである。データセットは、体系的なパイプラインを通じて生成され、人間の計算したベースシナリオとLLM駆動のセマンティック展開を組み合わせる。 QA精度とマスキング性能の評価は、ベンチマークの有用性を示している。
参考スコア（独自算出の注目度）: 8.946002046630845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly applied to cybersecurity question answering (QA) for critical tasks such as incident response and vulnerability analysis. However, real-world operational contexts, including system logs and network configurations, inherently contain sensitive identifiers, e.g., IP addresses, host names, and user accounts. Processing this data with cloud-based models is often unsafe or infeasible in regulated environments. Furthermore, progress in privacy-preserving QA is hindered by the lack of annotated, context-rich datasets capable of jointly evaluating operational reasoning and privacy preservation. To address this gap, we introduce CYBERMASKQA, a privacy-aware QA benchmark covering key security domains. Unlike existing benchmarks that primarily test factual knowledge, CYBERMASKQA grounds questions in realistic organizational contexts with explicit causal dependencies among assets and privileges. Generated through a systematic pipeline, the dataset combines human-curated base scenarios with LLM-driven semantic expansion, annotating each instance with precise private entity labels to enable controlled information disclosure. Evaluations of QA accuracy and masking performance demonstrate the benchmark's utility for developing deployable, context-aware cybersecurity models and facilitating nuanced studies of privacy-utility trade-offs. Upon acceptance, we will release the dataset and the generation framework.
Abstract（参考訳）: 大規模言語モデル(LLM)は、インシデント応答や脆弱性分析といった重要なタスクに対して、サイバーセキュリティ質問応答(QA)にますます適用されてきている。しかしながら、システムログやネットワーク構成を含む実世界の運用状況には、本質的に機密性の高い識別子、例えばIPアドレス、ホスト名、ユーザアカウントが含まれている。このデータをクラウドベースのモデルで処理することは、しばしば、規制された環境では安全でないか、実現不可能である。さらに、プライバシ保護QAの進歩は、運用上の推論とプライバシ保護を共同で評価できる注釈付きコンテキスト豊富なデータセットの欠如によって妨げられている。このギャップに対処するために、主要なセキュリティドメインをカバーするプライバシを意識したQAベンチマークであるCYBERMASKQAを紹介する。 CYBERMASKQAは主に事実知識をテストする既存のベンチマークとは異なり、CYBERMASKQAは資産と特権の間に明確な因果関係を持つ現実的な組織的な文脈で疑問を投げかける。データセットは、システマティックパイプラインを通じて生成され、人間の計算したベースシナリオとLLM駆動のセマンティック拡張を組み合わせて、各インスタンスに正確なプライベートエンティティラベルをアノテートして、制御された情報開示を可能にする。 QA精度とマスキング性能の評価は、デプロイ可能でコンテキスト対応のサイバーセキュリティモデルを開発するためのベンチマークの有用性を示し、プライバシとユーティリティのトレードオフに関する微妙な研究を促進する。受け入れられたら、データセットと生成フレームワークをリリースします。

関連論文リスト

Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security [57.35851886874902]
エージェントAIシステムは、複雑なタスクを自律的に実行するが、その多段階の軌道には、信頼性に挑戦する新たな障害モードが導入されている。この調査では、リスクの高いデプロイメントに不可欠な2つのコアディメンションを通じて、信頼できるエージェントAIを精査する。各次元について、重要な概念を明確にし、エージェントワークフローに沿ってリスクが発生する場所を特定し、ステージ目標の緩和戦略を要約する。
論文参考訳（メタデータ） (2026-05-17T10:26:37Z)
SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文参考訳（メタデータ） (2026-04-04T04:29:11Z)
CON-QA: Privacy-Preserving QA using cloud LLMs in Contract Domain [0.9957569102803299]
CON-QAは企業契約に対するセキュアな質問応答のためのハイブリッドプライバシ保護フレームワークである。 i) セマンティッククエリ分解、(ii) 検出されたセンシティブなエンティティの匿名化、(iii) クラウドベースのLCMによる匿名化応答生成である。 CON-QAを厳格に評価するために,実世界のCUAD契約文書510件に生成した85k問合せ対のコーパスであるCUAD-QAを紹介する。
論文参考訳（メタデータ） (2025-09-24T09:29:17Z)
SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文参考訳（メタデータ） (2025-09-18T03:57:50Z)
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering [15.506092447902931]
大規模言語モデル(LLM)は、企業や政府のような機密性の高いドメインにますますデプロイされている。我々は,質問応答における文脈的非開示ポリシーに対するLCMの適合性を評価する,新しい大規模ベンチマークデータセットであるCoPrivaを紹介した。私たちはベンチマークで10個のLSMを評価し、重大な脆弱性を明らかにします。
論文参考訳（メタデータ） (2025-05-21T17:58:11Z)
Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。 FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文参考訳（メタデータ） (2025-04-27T04:26:02Z)
AttackSeqBench: Benchmarking Large Language Models in Analyzing Attack Sequences within Cyber Threat Intelligence [17.234214109636113]
サイバー脅威インテリジェンス(CTI)は、敵の行動と行動可能な知識への意図に関する証拠を合成し、サイバー脅威の観察を文書化している。 CTIレポートの非構造的かつ冗長な性質は、セキュリティ実践者が手動でこのようなシーケンスを抽出し分析する上で大きな課題となる。大規模言語モデル(LLM)は、エンティティ抽出や知識グラフ構築などのサイバーセキュリティタスクにおいて有望であるが、それらの理解と行動シーケンスに対する推論能力はいまだ探索されていない。
論文参考訳（メタデータ） (2025-03-05T04:25:21Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。