論文の概要: SBAN: A Framework & Multi-Dimensional Dataset for Large Language Model Pre-Training and Software Code Mining
- arxiv url: http://arxiv.org/abs/2510.18936v2
- Date: Mon, 27 Oct 2025 12:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.599569
- Title: SBAN: A Framework & Multi-Dimensional Dataset for Large Language Model Pre-Training and Software Code Mining
- Title(参考訳): SBAN: 大規模言語モデルの事前トレーニングとソフトウェアコードマイニングのためのフレームワークと多次元データセット
- Authors: Hamed Jelodar, Mohammad Meymani, Samita Bai, Roozbeh Razavi-Far, Ali A. Ghorbani,
- Abstract要約: SBANは、それぞれ290万の良性と672,000のマルウェアを含む300万以上のサンプルで構成されている。
このユニークなマルチモーダル構造は、クロス表現学習、ソフトウェアのセマンティック理解、自動マルウェア検出の研究を可能にする。
- 参考スコア(独自算出の注目度): 4.719048895553176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces SBAN (Source code, Binary, Assembly, and Natural Language Description), a large-scale, multi-dimensional dataset designed to advance the pre-training and evaluation of large language models (LLMs) for software code analysis. SBAN comprises more than 3 million samples, including 2.9 million benign and 672,000 malware respectively, each represented across four complementary layers: binary code, assembly instructions, natural language descriptions, and source code. This unique multimodal structure enables research on cross-representation learning, semantic understanding of software, and automated malware detection. Beyond security applications, SBAN supports broader tasks such as code translation, code explanation, and other software mining tasks involving heterogeneous data. It is particularly suited for scalable training of deep models, including transformers and other LLM architectures. By bridging low-level machine representations and high-level human semantics, SBAN provides a robust foundation for building intelligent systems that reason about code. We believe that this dataset opens new opportunities for mining software behavior, improving security analytics, and enhancing LLM capabilities in pre-training and fine-tuning tasks for software code mining.
- Abstract(参考訳): 本稿では,SBAN (Source code, Binary, Assembly, and Natural Language Description)を紹介し,ソフトウェアコード解析のための大規模言語モデル(LLM)の事前学習と評価を促進するために設計された大規模多次元データセットについて述べる。
SBANは300万以上のサンプルで構成されており、それぞれ290万の良性と672,000のマルウェアが含まれており、それぞれが4つの補完レイヤ(バイナリコード、アセンブリ命令、自然言語記述、ソースコード)にまたがっている。
このユニークなマルチモーダル構造は、クロス表現学習、ソフトウェアのセマンティック理解、自動マルウェア検出の研究を可能にする。
セキュリティアプリケーション以外にも、SBANはコード翻訳、コード説明、異種データを含むその他のソフトウェアマイニングタスクなど幅広いタスクをサポートしている。
特に、トランスフォーマーやその他のLLMアーキテクチャを含むディープモデルのスケーラブルなトレーニングに適している。
低レベルのマシン表現と高レベルのヒューマンセマンティクスをブリッジすることで、SBANは、コードを推論するインテリジェントなシステムを構築するための堅牢な基盤を提供する。
このデータセットは、ソフトウェアの振る舞いをマイニングし、セキュリティ分析を改善し、ソフトウェアコードマイニングのための事前トレーニングおよび微調整タスクにおけるLLM能力を向上する新たな機会を開くと信じている。
関連論文リスト
- BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - S3LLM: Large-Scale Scientific Software Understanding with LLMs using Source, Metadata, and Document [8.518000504951404]
大規模言語モデル(LLM)は、複雑な科学的コードを理解するための新しい経路を提供する。
S3LLMは、ソースコード、コードメタデータ、要約された情報を対話的で対話的な方法で検証できるように設計されたフレームワークである。
S3LLMは、大規模科学計算ソフトウェアを迅速に理解するために、ローカルにデプロイされたオープンソースLLMを使用する可能性を実証している。
論文 参考訳(メタデータ) (2024-03-15T17:04:27Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。