論文の概要: Detection of security smells in IaC scripts through semantics-aware code and language processing
- arxiv url: http://arxiv.org/abs/2509.18790v1
- Date: Tue, 23 Sep 2025 08:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.773993
- Title: Detection of security smells in IaC scripts through semantics-aware code and language processing
- Title(参考訳): 意味論的コードと言語処理によるIaCスクリプトのセキュリティ臭の検出
- Authors: Aicha War, Adnan A. Rawass, Abdoul K. Kabore, Jordan Samhi, Jacques Klein, Tegawende F. Bissyande,
- Abstract要約: Infrastructure as Code(IaC)は、スクリプトやツールを通じてITインフラストラクチャのプロビジョニングと管理を自動化する。
以前の研究では、IaCスクリプトは頻繁にセキュリティの誤設定を含むことが示されている。
本稿では,自然言語とコード表現を協調的に活用することにより,意味理解による静的解析を強化する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.887962388698888
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Infrastructure as Code (IaC) automates the provisioning and management of IT infrastructure through scripts and tools, streamlining software deployment. Prior studies have shown that IaC scripts often contain recurring security misconfigurations, and several detection and mitigation approaches have been proposed. Most of these rely on static analysis, using statistical code representations or Machine Learning (ML) classifiers to distinguish insecure configurations from safe code. In this work, we introduce a novel approach that enhances static analysis with semantic understanding by jointly leveraging natural language and code representations. Our method builds on two complementary ML models: CodeBERT, to capture semantics across code and text, and LongFormer, to represent long IaC scripts without losing contextual information. We evaluate our approach on misconfiguration datasets from two widely used IaC tools, Ansible and Puppet. To validate its effectiveness, we conduct two ablation studies (removing code text from the natural language input and truncating scripts to reduce context) and compare against four large language models (LLMs) and prior work. Results show that semantic enrichment substantially improves detection, raising precision and recall from 0.46 and 0.79 to 0.92 and 0.88 on Ansible, and from 0.55 and 0.97 to 0.87 and 0.75 on Puppet, respectively.
- Abstract(参考訳): Infrastructure as Code(IaC)は、スクリプトやツールを通じてITインフラストラクチャのプロビジョニングと管理を自動化し、ソフトウェアデプロイメントを合理化します。
以前の研究では、IaCスクリプトには頻繁にセキュリティの誤設定が含まれており、いくつかの検出と緩和のアプローチが提案されている。
その多くは静的解析に依存しており、統計コード表現や機械学習(ML)分類器を使って安全でない設定と安全なコードとを区別している。
本研究では,自然言語とコード表現を協調的に活用することにより,意味理解による静的解析を強化する新しい手法を提案する。
提案手法は,コードとテキスト間のセマンティクスをキャプチャするCodeBERTと,コンテキスト情報を失うことなく長いIaCスクリプトを表現するLongFormerという2つの補完的MLモデルに基づいて構築する。
我々は、広く使われている2つのIaCツール、AnsibleとPuppetの誤設定データセットに対するアプローチを評価した。
その有効性を検証するために,2つのアブレーション研究(自然言語入力からコードテキストを取り除いたり,文脈を減らそうとするスクリプトを取り除いたり)を行い,4つの大規模言語モデル(LLM)と先行作業と比較した。
その結果、セマンティックエンリッチメントは検出を大幅に改善し、精度は0.46と0.79から0.92と0.88に向上し、Puppetでは0.55と0.97と0.87と0.75に向上した。
関連論文リスト
- Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。
63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。
開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文 参考訳(メタデータ) (2025-08-06T13:48:38Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Enhancing Large Language Models with Faster Code Preprocessing for Vulnerability Detection [0.0]
既存のSCoPEフレームワーク上に構築し、パフォーマンスを改善した拡張バージョンであるSCoPE2を導入します。
SCoPE2による処理時間を97.3%削減し,脆弱性検出のためのLarge Language Model(LLM)のF1スコアを改良した。
論文 参考訳(メタデータ) (2025-05-08T19:00:11Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - SCORE: Syntactic Code Representations for Static Script Malware Detection [9.502104012686491]
サーバーサイドスクリプトアタックはデータを盗み、資格を侵害し、操作を妨害する。
本稿では,静的スクリプトマルウェア検出のための特徴抽出と深層学習(DL)に基づくアプローチを提案する。
本手法は, 主要なシグネチャベースの抗ウイルスソリューションよりも最大81%高い陽性率(TPR)を達成する。
論文 参考訳(メタデータ) (2024-11-12T20:58:04Z) - A test-free semantic mistakes localization framework in Neural Code Translation [32.5036379897325]
本稿では,Large Language Model(LLM)に基づく静的解析フレームワークであるEISPを紹介する。
このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。
EISPは、AIチェーンを通じて、各サブコードのフラグメントをきめ細かい知識ヒントで接続する。
論文 参考訳(メタデータ) (2024-10-30T08:53:33Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。
そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。