論文の概要: Bridging the PLC Binary Analysis Gap: A Cross-Compiler Dataset and Neural Framework for Industrial Control Systems
- arxiv url: http://arxiv.org/abs/2502.19725v1
- Date: Thu, 27 Feb 2025 03:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:26.704541
- Title: Bridging the PLC Binary Analysis Gap: A Cross-Compiler Dataset and Neural Framework for Industrial Control Systems
- Title(参考訳): PLCバイナリ解析ギャップのブリッジ:産業制御システムのためのクロスコンパイラデータセットとニューラルネットワークフレームワーク
- Authors: Yonatan Gizachew Achamyeleh, Shih-Yuan Yu, Gustavo Quirós Araya, Mohammad Abdullah Al Faruque,
- Abstract要約: PLC-BEADは4つの主要な産業用コンパイラにまたがる700以上のPLCプログラムから2431のコンパイル済みバイナリを含むデータセットである。
この新しいデータセットは、それぞれのバイナリを独自のStructured Textソースコードと標準化された機能ラベルと一意にペアリングする。
バイナリコード解析のためのトランスフォーマーベースのフレームワークであるPLCEmbedを用いて,データセットの有用性を実証する。
- 参考スコア(独自算出の注目度): 14.826593801448032
- License:
- Abstract: Industrial Control Systems (ICS) rely heavily on Programmable Logic Controllers (PLCs) to manage critical infrastructure, yet analyzing PLC executables remains challenging due to diverse proprietary compilers and limited access to source code. To bridge this gap, we introduce PLC-BEAD, a comprehensive dataset containing 2431 compiled binaries from 700+ PLC programs across four major industrial compilers (CoDeSys, GEB, OpenPLC-V2, OpenPLC-V3). This novel dataset uniquely pairs each binary with its original Structured Text source code and standardized functionality labels, enabling both binary-level and source-level analysis. We demonstrate the dataset's utility through PLCEmbed, a transformer-based framework for binary code analysis that achieves 93\% accuracy in compiler provenance identification and 42\% accuracy in fine-grained functionality classification across 22 industrial control categories. Through comprehensive ablation studies, we analyze how compiler optimization levels, code patterns, and class distributions influence model performance. We provide detailed documentation of the dataset creation process, labeling taxonomy, and benchmark protocols to ensure reproducibility. Both PLC-BEAD and PLCEmbed are released as open-source resources to foster research in PLC security, reverse engineering, and ICS forensics, establishing new baselines for data-driven approaches to industrial cybersecurity.
- Abstract(参考訳): 産業制御システム(ICS)は、重要なインフラを管理するためにProgrammable Logic Controllers (PLC) に大きく依存しているが、多種多様なプロプライエタリなコンパイラとソースコードへのアクセス制限のため、PLC実行ファイルの分析は困難である。
このギャップを埋めるために、我々は4つの主要な産業用コンパイラ(CoDeSys, GEB, OpenPLC-V2, OpenPLC-V3)にわたる700以上のPLCプログラムから2431のコンパイル済みバイナリを含む総合データセットであるPLC-BEADを紹介した。
この新しいデータセットは、それぞれのバイナリを独自の構造化テキストソースコードと標準化された機能ラベルに一意に組み合わせ、バイナリレベルとソースレベルの両方の分析を可能にする。
PLCEmbedというバイナリコード解析のためのトランスフォーマーベースのフレームワークで、コンパイラのプロファイナンス識別において93%の精度と、22の産業制御カテゴリにわたるきめ細かい機能分類において42%の精度を実現している。
包括的なアブレーション研究を通じて、コンパイラの最適化レベル、コードパターン、クラス分布がモデルの性能にどのように影響するかを分析する。
本稿では,データセット作成プロセスの詳細なドキュメンテーション,分類のラベル付け,再現性を確保するためのベンチマークプロトコルについて述べる。
PLC-BEADとPLCEmbedはいずれも、PLCセキュリティ、リバースエンジニアリング、ICS法医学の研究を促進するためのオープンソースリソースとしてリリースされており、産業サイバーセキュリティに対するデータ駆動アプローチの新たなベースラインを確立している。
関連論文リスト
- SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。
それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。
SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文 参考訳(メタデータ) (2025-02-10T21:28:15Z) - CveBinarySheet: A Comprehensive Pre-built Binaries Database for IoT Vulnerability Analysis [0.0]
CveBinarySheetは1999年から2024年までの1033のCVEエントリを含むデータベースである。
私たちのデータセットは16の重要なサードパーティコンポーネントで構成されています。
各プリコンパイルされたバイナリは2つのコンパイラ最適化レベル(O0とO3)で利用でき、異なるコンパイルシナリオ下で包括的な脆弱性分析を容易にする。
論文 参考訳(メタデータ) (2025-01-15T14:50:46Z) - A Multi-Agent Framework for Extensible Structured Text Generation in PLCs [9.555744065377148]
IEC 61131-3規格に準拠した高水準言語はPLCにとって重要なものである。
STの完全な意味論に関する包括的で標準化されたドキュメントが欠如していることは、言語の実装方法に矛盾をもたらしている。
ベンダー固有のSTコードの自動生成を目的としたLCMベースのアプローチであるAutoPLCを提案する。
論文 参考訳(メタデータ) (2024-12-03T12:05:56Z) - Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。
DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文 参考訳(メタデータ) (2024-11-07T18:54:31Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Assemblage: Automatic Binary Dataset Construction for Machine Learning [35.674339346299654]
Assemblageはクラウドベースの分散システムで、Windows PEバイナリをクロールし、構成し、構築する。
過去1年間、AWS上でAssemblageを実行し、29のコンフィギュレーションで890kのWindows PEと428kのLinux ELFバイナリを生成しました。
論文 参考訳(メタデータ) (2024-05-07T04:10:01Z) - ProgSG: Cross-Modality Representation Learning for Programs in
Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。
HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。
本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文 参考訳(メタデータ) (2023-05-18T09:44:18Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Creating Training Sets via Weak Indirect Supervision [66.77795318313372]
Weak Supervision (WS)フレームワークは、複数の潜在的にノイズの多い監督ソースからトレーニングラベルを合成する。
Weak Indirect Supervision (WIS) は、トレーニングラベルの自動合成のための新しい研究課題である。
我々は,ユーザが提供するラベル関係を利用して間接的な監督源をモデル化し活用する確率論的モデリング手法PLRMを開発した。
論文 参考訳(メタデータ) (2021-10-07T14:09:35Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。