論文の概要: LLM-Assisted AHP for Explainable Cyber Range Evaluation
- arxiv url: http://arxiv.org/abs/2512.10487v1
- Date: Thu, 11 Dec 2025 10:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.313884
- Title: LLM-Assisted AHP for Explainable Cyber Range Evaluation
- Title(参考訳): 説明可能なサイバーレンジ評価のためのLCM支援型AHP
- Authors: Vyron Kampourakis, Georgios Kavallieratos, Georgios Spathoulas, Vasileios Gkioulos, Sokratis Katsikas,
- Abstract要約: サイバーレンジ(CR)は、サイバーセキュリティトレーニングと教育のための重要なプラットフォームとして登場した。
本稿では、ミッションクリティカルな設定を強調したCRの評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber Ranges (CRs) have emerged as prominent platforms for cybersecurity training and education, especially for Critical Infrastructure (CI) sectors that face rising cyber threats. One way to address these threats is through hands-on exercises that bridge IT and OT domains to improve defensive readiness. However, consistently evaluating whether a CR platform is suitable and effective remains a challenge. This paper proposes an evaluation framework for CRs, emphasizing mission-critical settings by using a multi-criteria decision-making approach. We define a set of evaluation criteria that capture technical fidelity, training and assessment capabilities, scalability, usability, and other relevant factors. To weight and aggregate these criteria, we employ the Analytic Hierarchy Process (AHP), supported by a simulated panel of multidisciplinary experts implemented through a Large Language Model (LLM). This LLM-assisted expert reasoning enables consistent and reproducible pairwise comparisons across criteria without requiring direct expert convening. The framework's output equals quantitative scores that facilitate objective comparison of CR platforms and highlight areas for improvement. Overall, this work lays the foundation for a standardized and explainable evaluation methodology to guide both providers and end-users of CRs.
- Abstract(参考訳): サイバーレンジ(CR)は、サイバーセキュリティトレーニングと教育、特にサイバー脅威の増大に直面しているクリティカルインフラストラクチャー(CI)セクターのための重要なプラットフォームとして登場した。
これらの脅威に対処する1つの方法は、ITドメインとOTドメインを橋渡しして防御的準備性を改善するハンズオンエクササイズである。
しかし、CRプラットフォームが適切で効果的かどうかを一貫して評価することは課題である。
本稿では,マルチ基準決定手法を用いてミッションクリティカルな設定を強調するCRの評価フレームワークを提案する。
技術的忠実さ、トレーニングとアセスメント能力、スケーラビリティ、ユーザビリティ、その他の関連要因を捉えるための評価基準のセットを定義します。
これらの基準を重み付け、集約するために、Large Language Model (LLM)を通して実装された多分野の専門家のシミュレーションパネルによって支援された分析階層プロセス(AHP)を用いる。
このLSM支援専門家推論は、専門家の直接の議論を必要とせず、基準を越えて一貫した、再現可能なペアワイズ比較を可能にする。
フレームワークの出力は、CRプラットフォームを客観的に比較し、改善すべき領域をハイライトする定量的スコアと等しい。
全体として、この研究はCRのプロバイダとエンドユーザーの両方をガイドする標準化され説明可能な評価手法の基礎を築いた。
関連論文リスト
- CREST: Improving Interpretability and Effectiveness of Troubleshooting at Ericsson through Criterion-Specific Trouble Report Retrieval [0.5352699766206809]
本研究では,異なるTR観測基準と検索モデルの性能への影響について検討した。
textbfCREST (textbfCriteria-specific textbfRetrieval via textbfEnsemble of textbf Specialized textbfTR model)を提案する。
CRESTでは、特定のTR基準に基づいてトレーニングされた特殊なモデルを使用して、出力を集約して、多種多様な補完的な信号をキャプチャする。
論文 参考訳(メタデータ) (2025-11-21T17:16:24Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - A New Approach for Multicriteria Assessment in the Ranking of Alternatives Using Cardinal and Ordinal Data [0.0]
2つの仮想ギャップ解析(VGA)モデルを組み合わせた新しいMCA手法を提案する。
線形プログラミングに根ざしたVGAフレームワークは、MCA方法論において重要である。
論文 参考訳(メタデータ) (2025-07-10T04:00:48Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Multi-Stage Retrieval for Operational Technology Cybersecurity Compliance Using Large Language Models: A Railway Casestudy [1.1010026679581653]
本稿では,Large Language Models(LLM)と多段階検索を活用し,コンプライアンス検証のプロセスを強化するシステムを提案する。
まず, OTCSコンプライアンスクエリに応答するベースラインコンプライアンスアーキテクチャ(BCA)を評価し, 並列コンプライアンスアーキテクチャ(PCA)と呼ばれる拡張アプローチを開発した。
我々は,PCAがコンプライアンス検証における正当性と理性の両方を著しく改善することを実証した。
論文 参考訳(メタデータ) (2025-04-18T19:24:17Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Review of coreference resolution in English and Persian [8.604145658574689]
参照解決(CR)は、同じ現実世界の実体を参照する表現を識別する。
本稿では、コア参照とアナフォラ分解能にまたがるCRの最近の進歩について考察する。
ペルシャのCRの独特な課題を認識し、このアンダーリソース言語に焦点をあてる。
論文 参考訳(メタデータ) (2022-11-08T18:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。