論文の概要: AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research
- arxiv url: http://arxiv.org/abs/2511.13333v1
- Date: Mon, 17 Nov 2025 13:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.218484
- Title: AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research
- Title(参考訳): AutoMalDesc:サイバー脅威研究のための大規模スクリプト分析
- Authors: Alexandru-Mihai Apostu, Andrei Preda, Alexandra Daniela Damir, Diana Bolocan, Radu Tudor Ionescu, Ioana Croitoru, Mihaela Gaman,
- Abstract要約: 脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
- 参考スコア(独自算出の注目度): 81.04845910798387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating thorough natural language explanations for threat detections remains an open problem in cybersecurity research, despite significant advances in automated malware detection systems. In this work, we present AutoMalDesc, an automated static analysis summarization framework that, following initial training on a small set of expert-curated examples, operates independently at scale. This approach leverages an iterative self-paced learning pipeline to progressively enhance output quality through synthetic data generation and validation cycles, eliminating the need for extensive manual data annotation. Evaluation across 3,600 diverse samples in five scripting languages demonstrates statistically significant improvements between iterations, showing consistent gains in both summary quality and classification accuracy. Our comprehensive validation approach combines quantitative metrics based on established malware labels with qualitative assessment from both human experts and LLM-based judges, confirming both technical precision and linguistic coherence of generated summaries. To facilitate reproducibility and advance research in this domain, we publish our complete dataset of more than 100K script samples, including annotated seed (0.9K) and test (3.6K) datasets, along with our methodology and evaluation framework.
- Abstract(参考訳): 脅威検出のための詳細な自然言語の説明を生成することは、自動マルウェア検出システムに大きな進歩があったにもかかわらず、サイバーセキュリティ研究において未解決の問題である。
そこで本研究では,少数の専門家によるサンプルを初期訓練した後に,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを提案する。
このアプローチでは、反復的なセルフペース学習パイプラインを活用して、合成データ生成と検証サイクルを通じて出力品質を段階的に向上し、広範な手動データアノテーションの必要性を排除している。
5つのスクリプティング言語における3600の多様なサンプルに対する評価は、イテレーション間で統計的に有意な改善を示し、要約品質と分類精度の両方において一貫した向上を示している。
我々の総合的な検証手法は、確立されたマルウェアラベルに基づく定量的メトリクスと、人間の専門家とLLMベースの審査員の質的評価を組み合わせることで、生成された要約の技術的精度と言語的コヒーレンスの両方を確認する。
この領域における再現性の向上と研究を進めるために,アノテーション付きシード(0.9K)とテスト(3.6K)を含む100万以上のスクリプトサンプルの全データセットと,方法論と評価フレームワークを公開しました。
関連論文リスト
- Large Language Models for Full-Text Methods Assessment: A Case Study on Mediation Analysis [15.98124151893659]
大規模言語モデル(LLM)は方法論的評価の自動化の可能性を秘めている。
我々は180のフルテキストの科学論文に対して、最先端のLLMを専門家の人間レビュアーに対してベンチマークした。
論文 参考訳(メタデータ) (2025-10-12T19:04:22Z) - AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
AVIATORはAIによる最初の脆弱性注入ワークフローである。
高忠実で多様な大規模な脆弱性データセット生成のために、現実的でカテゴリ固有の脆弱性を自動的に注入する。
セマンティック分析、LoRAベースのファインチューニングとRetrieval-Augmented Generationで強化されたインジェクション合成、静的解析とLLMベースの識別器によるインジェクション後の検証を組み合わせる。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - Scalable and consistent few-shot classification of survey responses using text embeddings [0.0]
テキスト埋め込みに基づく分類フレームワークを導入する。
2899個のオープンエンド応答からなる概念物理学サーベイの人間解析に対してベンチマークを行ったところ、我々のフレームワークは0.74から0.83の範囲でコーエンのカッパを達成できた。
これらの結果から,テキスト埋め込み支援符号化は,解釈性を犠牲にすることなく,数千の応答に柔軟にスケールできることが示唆された。
論文 参考訳(メタデータ) (2025-08-27T12:45:25Z) - Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。
提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。
VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2025-05-12T09:14:20Z) - Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts [0.0]
AIフラグメントを備えた膨大な数の検出器とコレクションが出現している。
しかし、そのような検出器の品質は野生では劇的に低下する傾向にある。
本稿では,AI生成フラグメントを含むデータセットの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:57Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。