論文の概要: Binary-30K: A Heterogeneous Dataset for Deep Learning in Binary Analysis and Malware Detection
- arxiv url: http://arxiv.org/abs/2511.22095v1
- Date: Thu, 27 Nov 2025 04:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.389674
- Title: Binary-30K: A Heterogeneous Dataset for Deep Learning in Binary Analysis and Malware Detection
- Title(参考訳): Binary-30K:バイナリ解析とマルウェア検出におけるディープラーニングのための不均一データセット
- Authors: Michael J. Bommarito,
- Abstract要約: Binary-30Kはトランスフォーマーのようなシーケンスベースのモデル用に設計された最初の異種バイナリデータセットである。
29,793個のバイナリと約26.93%のマルウェア表現により、Binary-30Kはプラットフォーム不変の検出、クロスターゲット転送学習、長文バイナリ理解の研究を可能にする。
データセットはhttps://huggingface.co/datasets/mjbommar/binary-30kで公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning research for binary analysis faces a critical infrastructure gap. Today, existing datasets target single platforms, require specialized tooling, or provide only hand-engineered features incompatible with modern neural architectures; no single dataset supports accessible research and pedagogy on realistic use cases. To solve this, we introduce Binary-30K, the first heterogeneous binary dataset designed for sequence-based models like transformers. Critically, Binary-30K covers Windows, Linux, macOS, and Android across 15+ CPU architectures. With 29,793 binaries and approximately 26.93% malware representation, Binary-30K enables research on platform-invariant detection, cross-target transfer learning, and long-context binary understanding. The dataset provides pre-computed byte-level BPE tokenization alongside comprehensive structural metadata, supporting both sequence modeling and structure-aware approaches. Platform-first stratified sampling ensures representative coverage across operating systems and architectures, while distribution via Hugging Face with official train/validation/test splits enables reproducible benchmarking. The dataset is publicly available at https://huggingface.co/datasets/mjbommar/binary-30k, providing an accessible resource for researchers, practitioners, and students alike.
- Abstract(参考訳): バイナリ分析のためのディープラーニングの研究は、重要なインフラストラクチャギャップに直面している。
現在、既存のデータセットは単一のプラットフォームをターゲットにしており、特別なツールを必要としたり、現代のニューラルアーキテクチャと互換性のない手作業による機能のみを提供する。
この問題を解決するために、変換器のようなシーケンスベースモデル用に設計された最初の異種バイナリデータセットであるBinary-30Kを導入する。
Binary-30Kは、Windows、Linux、macOS、Androidを15以上のCPUアーキテクチャでカバーしている。
29,793個のバイナリと約26.93%のマルウェア表現により、Binary-30Kはプラットフォーム不変の検出、クロスターゲット転送学習、長文バイナリ理解の研究を可能にする。
このデータセットは、包括的構造メタデータとともに、事前に計算されたバイトレベルのBPEトークン化を提供し、シーケンスモデリングと構造認識アプローチの両方をサポートする。
プラットフォームファーストの階層化サンプリングは、オペレーティングシステムとアーキテクチャをまたいだ代表的カバレッジを保証する一方で、公式なトレイン/バリデーション/テストスプリットを備えたHugging Faceによる配布は、再現可能なベンチマークを可能にする。
データセットはhttps://huggingface.co/datasets/mjbommar/binary-30kで公開されている。
関連論文リスト
- Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - Assemblage: Automatic Binary Dataset Construction for Machine Learning [35.674339346299654]
Assemblageはクラウドベースの分散システムで、Windows PEバイナリをクロールし、構成し、構築する。
過去1年間、AWS上でAssemblageを実行し、29のコンフィギュレーションで890kのWindows PEと428kのLinux ELFバイナリを生成しました。
論文 参考訳(メタデータ) (2024-05-07T04:10:01Z) - BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。
精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。
ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文 参考訳(メタデータ) (2023-01-26T17:17:16Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Rethinking Architecture Design for Tackling Data Heterogeneity in
Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。
我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文 参考訳(メタデータ) (2021-06-10T21:04:18Z) - End to End Binarized Neural Networks for Text Classification [4.046236197219608]
目的分類タスクのためのエンドツーエンドのバイナライズニューラルネットワークアーキテクチャを提案する。
提案したアーキテクチャは、標準的な意図分類データセットにおける最先端の結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-11T11:21:53Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - MetaPerturb: Transferable Regularizer for Heterogeneous Tasks and
Architectures [61.73533544385352]
本稿ではメタパーターブ(MetaPerturb)というトランスファー可能な摂動モデルを提案する。
MetaPerturbは、レイヤやタスクにまたがる多様な分散を訓練したセット関数であるため、異種タスクやアーキテクチャを一般化することができる。
論文 参考訳(メタデータ) (2020-06-13T02:54:59Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。