Fugu-MT 論文翻訳(概要): Bridging the PLC Binary Analysis Gap: A Cross-Compiler Dataset and Neural Framework for Industrial Control Systems

論文の概要: Bridging the PLC Binary Analysis Gap: A Cross-Compiler Dataset and Neural Framework for Industrial Control Systems

arxiv url: http://arxiv.org/abs/2502.19725v1
Date: Thu, 27 Feb 2025 03:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.739354
Title: Bridging the PLC Binary Analysis Gap: A Cross-Compiler Dataset and Neural Framework for Industrial Control Systems
Title（参考訳）: PLCバイナリ解析ギャップのブリッジ:産業制御システムのためのクロスコンパイラデータセットとニューラルネットワークフレームワーク
Authors: Yonatan Gizachew Achamyeleh, Shih-Yuan Yu, Gustavo Quirós Araya, Mohammad Abdullah Al Faruque,
Abstract要約: PLC-BEADは4つの主要な産業用コンパイラにまたがる700以上のPLCプログラムから2431のコンパイル済みバイナリを含むデータセットである。この新しいデータセットは、それぞれのバイナリを独自のStructured Textソースコードと標準化された機能ラベルと一意にペアリングする。バイナリコード解析のためのトランスフォーマーベースのフレームワークであるPLCEmbedを用いて,データセットの有用性を実証する。
参考スコア（独自算出の注目度）: 14.826593801448032
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Industrial Control Systems (ICS) rely heavily on Programmable Logic Controllers (PLCs) to manage critical infrastructure, yet analyzing PLC executables remains challenging due to diverse proprietary compilers and limited access to source code. To bridge this gap, we introduce PLC-BEAD, a comprehensive dataset containing 2431 compiled binaries from 700+ PLC programs across four major industrial compilers (CoDeSys, GEB, OpenPLC-V2, OpenPLC-V3). This novel dataset uniquely pairs each binary with its original Structured Text source code and standardized functionality labels, enabling both binary-level and source-level analysis. We demonstrate the dataset's utility through PLCEmbed, a transformer-based framework for binary code analysis that achieves 93\% accuracy in compiler provenance identification and 42\% accuracy in fine-grained functionality classification across 22 industrial control categories. Through comprehensive ablation studies, we analyze how compiler optimization levels, code patterns, and class distributions influence model performance. We provide detailed documentation of the dataset creation process, labeling taxonomy, and benchmark protocols to ensure reproducibility. Both PLC-BEAD and PLCEmbed are released as open-source resources to foster research in PLC security, reverse engineering, and ICS forensics, establishing new baselines for data-driven approaches to industrial cybersecurity.
Abstract（参考訳）: 産業制御システム(ICS)は、重要なインフラを管理するためにProgrammable Logic Controllers (PLC) に大きく依存しているが、多種多様なプロプライエタリなコンパイラとソースコードへのアクセス制限のため、PLC実行ファイルの分析は困難である。このギャップを埋めるために、我々は4つの主要な産業用コンパイラ(CoDeSys, GEB, OpenPLC-V2, OpenPLC-V3)にわたる700以上のPLCプログラムから2431のコンパイル済みバイナリを含む総合データセットであるPLC-BEADを紹介した。この新しいデータセットは、それぞれのバイナリを独自の構造化テキストソースコードと標準化された機能ラベルに一意に組み合わせ、バイナリレベルとソースレベルの両方の分析を可能にする。 PLCEmbedというバイナリコード解析のためのトランスフォーマーベースのフレームワークで、コンパイラのプロファイナンス識別において93%の精度と、22の産業制御カテゴリにわたるきめ細かい機能分類において42%の精度を実現している。包括的なアブレーション研究を通じて、コンパイラの最適化レベル、コードパターン、クラス分布がモデルの性能にどのように影響するかを分析する。本稿では,データセット作成プロセスの詳細なドキュメンテーション,分類のラベル付け,再現性を確保するためのベンチマークプロトコルについて述べる。 PLC-BEADとPLCEmbedはいずれも、PLCセキュリティ、リバースエンジニアリング、ICS法医学の研究を促進するためのオープンソースリソースとしてリリースされており、産業サイバーセキュリティに対するデータ駆動アプローチの新たなベースラインを確立している。

関連論文リスト

Evaluating and Achieving Controllable Code Completion in Code LLM [89.64782747840225]
命令誘導型コード補完ベンチマークである制御可能コード補完ベンチマーク(C3-Bench)を提案する。コード補完作業中に,オープンソースのプロプライエタリモデルと高度なプロプライエタリモデルの間に,命令追従機能にかなりのギャップがあることを明らかにする。結果として得られたQwen2.5-Coder-C3は、C3-Bench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-01-22T11:40:04Z)
SpecMap: Hierarchical LLM Agent for Datasheet-to-Code Traceability Link Recovery in Systems Engineering [8.235446273226277]
組み込みシステムとそれに対応するコード実装の間のトレーサビリティは、システムエンジニアリングにおける根本的な課題である。既存のトレーサビリティリンク回復アプローチは、語彙的類似性と情報検索技術に依存している。本稿では,意味解析に大規模言語モデルを用いる階層型コードマッピング手法を提案する。
論文参考訳（メタデータ） (2026-01-16T11:50:18Z)
A Generalizable Framework for Building Executable Domain-Specific LLMs under Data Scarcity: Demonstration on Semiconductor TCAD Simulation [20.174394305112198]
低リソース環境下でコンパクトで実行可能なドメイン固有LLMを構築するためのフレームワークを提案する。半導体コンピュータ支援設計(TCAD)のためのTcadGPTのインスタンス化によるフレームワークの実証 1.5Mの合成QAペアとIR駆動のDPOデータセットを使用して、TcadGPTはSDE実行可能性テストにおいて85.6%のセマンティック精度と80.0%の構文パスレートを達成した。
論文参考訳（メタデータ） (2026-01-15T07:13:34Z)
Cross-modal Retrieval Models for Stripped Binary Analysis [62.89251403093734]
BinSeekは、取り除かれたバイナリコード分析のための最初の2段階のクロスモーダル検索フレームワークである。 BinSeekEmbeddingは、バイナリコードのセマンティックな関連性を学ぶために、大規模なデータセットでトレーニングされている。 BinSeek-Rerankerは、コンテキスト拡張による記述に対する候補コードの関連性を慎重に判断することを学ぶ。
論文参考訳（メタデータ） (2025-12-11T07:58:10Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。 LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。 LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文参考訳（メタデータ） (2025-09-03T06:42:40Z)
BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。 BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文参考訳（メタデータ） (2025-05-12T08:54:07Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
CveBinarySheet: A Comprehensive Pre-built Binaries Database for IoT Vulnerability Analysis [0.0]
CveBinarySheetは1999年から2024年までの1033のCVEエントリを含むデータベースである。私たちのデータセットは16の重要なサードパーティコンポーネントで構成されています。各プリコンパイルされたバイナリは2つのコンパイラ最適化レベル(O0とO3)で利用でき、異なるコンパイルシナリオ下で包括的な脆弱性分析を容易にする。
論文参考訳（メタデータ） (2025-01-15T14:50:46Z)
A Multi-Agent Framework for Extensible Structured Text Generation in PLCs [9.555744065377148]
IEC 61131-3規格に準拠した高水準言語はPLCにとって重要なものである。 STの完全な意味論に関する包括的で標準化されたドキュメントが欠如していることは、言語の実装方法に矛盾をもたらしている。ベンダー固有のSTコードの自動生成を目的としたLCMベースのアプローチであるAutoPLCを提案する。
論文参考訳（メタデータ） (2024-12-03T12:05:56Z)
Enhancing Reverse Engineering: Investigating and Benchmarking Large Language Models for Vulnerability Analysis in Decompiled Binaries [2.696054049278301]
新しくコンパイルされたバイナリコード脆弱性データセットであるDeBinVulを紹介します。 DeBinVulを使って最先端のLLMを微調整し、バイナリコード脆弱性の検出においてパフォーマンスが19%、24%、21%向上したことを報告します。
論文参考訳（メタデータ） (2024-11-07T18:54:31Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Assemblage: Automatic Binary Dataset Construction for Machine Learning [35.674339346299654]
Assemblageはクラウドベースの分散システムで、Windows PEバイナリをクロールし、構成し、構築する。過去1年間、AWS上でAssemblageを実行し、29のコンフィギュレーションで890kのWindows PEと428kのLinux ELFバイナリを生成しました。
論文参考訳（メタデータ） (2024-05-07T04:10:01Z)
ProgSG: Cross-Modality Representation Learning for Programs in Electronic Design Automation [38.023395256208055]
高レベル合成(HLS)により、開発者はCとC++のソフトウェアコード形式で高レベルな記述をコンパイルできる。 HLSツールは相変わらず、プラグマで表されるマイクロアーキテクチャの決定を必要とする。本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。
論文参考訳（メタデータ） (2023-05-18T09:44:18Z)
DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。我々のベンチマークは、複数の計算スケールから成っている。特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文参考訳（メタデータ） (2023-04-27T11:37:18Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Creating Training Sets via Weak Indirect Supervision [66.77795318313372]
Weak Supervision (WS)フレームワークは、複数の潜在的にノイズの多い監督ソースからトレーニングラベルを合成する。 Weak Indirect Supervision (WIS) は、トレーニングラベルの自動合成のための新しい研究課題である。我々は,ユーザが提供するラベル関係を利用して間接的な監督源をモデル化し活用する確率論的モデリング手法PLRMを開発した。
論文参考訳（メタデータ） (2021-10-07T14:09:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。