論文の概要: Binary BPE: A Family of Cross-Platform Tokenizers for Binary Analysis
- arxiv url: http://arxiv.org/abs/2511.17573v1
- Date: Fri, 14 Nov 2025 22:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.29294
- Title: Binary BPE: A Family of Cross-Platform Tokenizers for Binary Analysis
- Title(参考訳): バイナリBPE:バイナリ解析のためのクロスプラットフォーム・トケナイザの一家系
- Authors: Michael J. Bommarito,
- Abstract要約: 本稿では,バイナリの大規模なコーパス上でトレーニングされた実行可能ファイルに対して,クロスプラットフォームなトークン化を行うBinary BPEトークン化ファミリを紹介する。
我々は,4K,8K,16K,32K,64Kトークンの語彙で訓練されたトークンライザをリリースし,体系的スケーリング研究と実践的展開の両立を可能にした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence models for binary analysis are bottlenecked by byte-level tokenization: raw bytes waste precious context window capacity for transformers and other neural network architectures, and many existing text-oriented tokenizers fail on arbitrary 0x00--0xFF sequences. To address this issue, we introduce the Binary BPE tokenizer family, a set of cross-platform Byte Pair Encoding (BPE) tokenizers for executables trained on a large corpus of binaries spanning multiple platforms, architectures, and operating systems, including Linux, Windows, macOS, Android, and malware sources. We release trained tokenizers with vocabularies of 4K, 8K, 16K, 32K, and 64K tokens, enabling both systematic scaling studies and practical deployment from resource-constrained edge devices to high-throughput datacenters. These tokenizers discover interpretable patterns (ELF/PE headers, instruction sequences, cross-platform strings) while yielding multi-byte compression per token. On representative uncompressed executables (e.g., ELF/PE/Mach-O rather than compressed APKs), the Binary BPE tokenizers typically allow for roughly 2-3x more binary content per fixed-length transformer context window than raw bytes, enabling more efficient research and practical deployment for content identification, malware detection, reverse engineering, and optimization. We release the trained Binary BPE tokenizers on HuggingFace, providing a drop-in, open-source foundation for binary-focused language models and context-efficient agentic tools.
- Abstract(参考訳): 生バイトはトランスフォーマーや他のニューラルネットワークアーキテクチャにとって貴重なコンテキストウィンドウ容量を無駄にし、既存のテキスト指向トークン化器は任意の0x00-0xFFシーケンスで失敗する。
この問題に対処するため、Linux、Windows、macOS、Android、マルウェアソースを含む、複数のプラットフォーム、アーキテクチャ、オペレーティングシステムにまたがる大規模なバイナリのコーパスでトレーニングされた実行可能ファイルのためのクロスプラットフォームバイトコードペアエンコーディング(BPE)トークンライザのセットであるBinary BPEトークンライザファミリを紹介した。
我々は,4K,8K,16K,32K,64Kトークンの語彙を持つ訓練されたトークンライザをリリースし,体系的なスケーリング研究と,リソース制約されたエッジデバイスから高スループットのデータセンタへの実践的展開を可能にする。
これらのトークンライザは、トークン毎にマルチバイト圧縮を出力しながら、解釈可能なパターン(ELF/PEヘッダ、命令シーケンス、クロスプラットフォーム文字列)を発見する。
圧縮APKではなく、一般的な非圧縮実行可能ファイル(例えば、ELF/PE/Mach-O)では、バイナリBPEトークンは、通常、生バイトよりも固定長トランスフォーマーコンテキストウィンドウ当たりのバイナリコンテンツを約2~3倍増やし、コンテンツ識別、マルウェア検出、リバースエンジニアリング、最適化のためのより効率的な研究と実践的なデプロイメントを可能にする。
HuggingFace上で訓練されたBinary BPEトークンライザをリリースし、バイナリ指向言語モデルとコンテキスト効率のエージェントツールのための、ドロップインでオープンソースの基盤を提供します。
関連論文リスト
- Binary-30K: A Heterogeneous Dataset for Deep Learning in Binary Analysis and Malware Detection [0.0]
Binary-30Kはトランスフォーマーのようなシーケンスベースのモデル用に設計された最初の異種バイナリデータセットである。
29,793個のバイナリと約26.93%のマルウェア表現により、Binary-30Kはプラットフォーム不変の検出、クロスターゲット転送学習、長文バイナリ理解の研究を可能にする。
データセットはhttps://huggingface.co/datasets/mjbommar/binary-30kで公開されている。
論文 参考訳(メタデータ) (2025-11-27T04:33:16Z) - Transformers from Compressed Representations [74.48571451824569]
TEMPEST (TransformErs froM comPressed rEpreSenTations) は、圧縮されたファイルのバイトストリーム構造を利用して効果的なトークン化と符号化戦略を設計する手法である。
本提案では,意味分類に必要なトークン数を大幅に削減し,計算複雑性とメモリ使用量の両方を削減する。
論文 参考訳(メタデータ) (2025-10-26T13:48:03Z) - Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - Assemblage: Automatic Binary Dataset Construction for Machine Learning [35.674339346299654]
Assemblageはクラウドベースの分散システムで、Windows PEバイナリをクロールし、構成し、構築する。
過去1年間、AWS上でAssemblageを実行し、29のコンフィギュレーションで890kのWindows PEと428kのLinux ELFバイナリを生成しました。
論文 参考訳(メタデータ) (2024-05-07T04:10:01Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。