論文の概要: Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers
- arxiv url: http://arxiv.org/abs/2603.06862v1
- Date: Fri, 06 Mar 2026 20:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.213287
- Title: Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers
- Title(参考訳): LLMによるアーティファクト評価支援 : 公開セキュリティ研究論文による検討
- Authors: David Heye, Karl Kindermann, Robin Decker, Johannes Lohmöller, Anastasiia Belova, Sandra Geisler, Klaus Wehrle, Jan Pennekamp,
- Abstract要約: アーティファクト評価(AE)は、サイバーセキュリティ研究の透明性と信頼性を確保するために不可欠である。
本研究では,大規模言語モデル(LLM)がAEタスクを強力にサポートできることを実証する。
自動落とし穴評価は,高精度で発生する7つの落とし穴を検出する。
- 参考スコア(独自算出の注目度): 5.009057338160819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artifact Evaluation (AE) is essential for ensuring the transparency and reliability of research, closing the gap between exploratory work and real-world deployment is particularly important in cybersecurity, particularly in IoT and CPSs, where large-scale, heterogeneous, and privacy-sensitive data meet safety-critical actuation. Yet, manual reproducibility checks are time-consuming and do not scale with growing submission volumes. In this work, we demonstrate that Large Language Models (LLMs) can provide powerful support for AE tasks: (i) text-based reproducibility rating, (ii) autonomous sandboxed execution environment preparation, and (iii) assessment of methodological pitfalls. Our reproducibility-assessment toolkit yields an accuracy of over 72% and autonomously sets up execution environments for 28% of runnable cybersecurity artifacts. Our automated pitfall assessment detects seven prevalent pitfalls with high accuracy ($F_1$ > 92%). Hence, the toolkit significantly reduces reviewer effort and, when integrated into established AE processes, could incentivize authors to submit higher-quality and more reproducible artifacts. IoT, CPS, and cybersecurity conferences and workshops may integrate the toolkit into their peer-review processes to support reviewers' decisions on awarding artifact badges, improving the overall sustainability of the process.
- Abstract(参考訳): アーティファクト評価(AE)は研究の透明性と信頼性を確保する上で不可欠であり、特にIoTやCPSにおいて、探索作業と現実世界のデプロイメントのギャップを埋めることが、特にサイバーセキュリティにおいて重要である。
しかし、手動の再現性チェックは時間がかかり、提出量の増加とともにスケールしない。
本研究では,大規模言語モデル(LLM)がAEタスクを強力にサポートできることを実証する。
(i)テキストによる再現性評価
二 自動サンドボックス実行環境の準備及び
三 方法的落とし穴の評価
我々の再現性評価ツールキットは72%以上の精度を示し、実行可能なサイバーセキュリティアーティファクトの28%を自律的に実行環境に設定します。
我々の自動落とし穴評価は、高い精度で7つの一般的な落とし穴を検出する(F_1$ > 92%)。
したがって、このツールキットはレビュアーの労力を大幅に削減し、確立されたAEプロセスに統合すると、著者に高品質で再現可能なアーティファクトを提出するインセンティブを与えることができる。
IoT、CPS、サイバーセキュリティカンファレンスおよびワークショップは、ツールキットをピアレビュープロセスに統合し、レビュアーがアーティファクトバッジを授与する決定をサポートし、プロセスの全体的な持続可能性を改善することができる。
関連論文リスト
- FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - An Optimized Decision Tree-Based Framework for Explainable IoT Anomaly Detection [1.2520011735093362]
モノのインターネット(IoT)デバイスの増加は、サイバー脅威の攻撃面を著しく増加させています。
本稿では、最適化された決定木分類器に基づく説明可能なAI(XAI)フレームワークを提案する。
提案システムは,99.91%の精度,99.51%のF1スコア,0.9960のコーエンカッパ,98.93%のクロスバリデーション平均精度で高い安定性が確認された。
論文 参考訳(メタデータ) (2026-01-18T08:48:53Z) - Automated Penetration Testing with LLM Agents and Classical Planning [17.63204677572438]
本稿では,Planner-Executor-Perceptor (PEP) の設計パラダイムを紹介する。
我々は既存の浸透試験システムの評価を行い、特にLarge Language Model (LLM) エージェントの使用に焦点を当てた。
LLMエージェントに拡張古典計画を統合するフレームワークであるCHECKMATEを提案する。
論文 参考訳(メタデータ) (2025-12-11T22:04:39Z) - ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。
我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-09-27T22:36:42Z) - Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。
その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。
モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文 参考訳(メタデータ) (2025-06-11T18:43:51Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Streamlining Security Vulnerability Triage with Large Language Models [0.786186571320448]
セキュリティバグの共通弱さ(CWE)の同定を自動化し,その重症度を評価する新しいアプローチであるCASEYを提案する。
ケーシーはCWE識別精度68%、重度識別精度73.6%、組み合わせ精度51.2%を達成した。
論文 参考訳(メタデータ) (2025-01-31T06:02:24Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。