論文の概要: How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis
- arxiv url: http://arxiv.org/abs/2511.03825v1
- Date: Wed, 05 Nov 2025 19:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.200391
- Title: How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis
- Title(参考訳): 2値コード解析におけるトークン化アルゴリズムの違いがLLMとトランスフォーマーモデルに与える影響
- Authors: Ahmed Mostafa, Raisul Arefin Nahid, Samuel Mulder,
- Abstract要約: その重要性にもかかわらず、アセンブリコードのコンテキストにおけるトークン化は未探索領域のままである。
我々は、アセンブリコードのユニークな特徴に合わせて、プリプロセスのカスタマイズオプションとプリトークン化ルールについて検討する。
我々は,トークン化効率,語彙圧縮,組立符号の表現忠実度に基づくトークン化器の比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization is fundamental in assembly code analysis, impacting intrinsic characteristics like vocabulary size, semantic coverage, and extrinsic performance in downstream tasks. Despite its significance, tokenization in the context of assembly code remains an underexplored area. This study aims to address this gap by evaluating the intrinsic properties of Natural Language Processing (NLP) tokenization models and parameter choices, such as vocabulary size. We explore preprocessing customization options and pre-tokenization rules tailored to the unique characteristics of assembly code. Additionally, we assess their impact on downstream tasks like function signature prediction -- a critical problem in binary code analysis. To this end, we conduct a thorough study on various tokenization models, systematically analyzing their efficiency in encoding assembly instructions and capturing semantic nuances. Through intrinsic evaluations, we compare tokenizers based on tokenization efficiency, vocabulary compression, and representational fidelity for assembly code. Using state-of-the-art pre-trained models such as the decoder-only Large Language Model (LLM) Llama 3.2, the encoder-only transformer BERT, and the encoder-decoder model BART, we evaluate the effectiveness of these tokenizers across multiple performance metrics. Preliminary findings indicate that tokenizer choice significantly influences downstream performance, with intrinsic metrics providing partial but incomplete predictability of extrinsic evaluation outcomes. These results reveal complex trade-offs between intrinsic tokenizer properties and their utility in practical assembly code tasks. Ultimately, this study provides valuable insights into optimizing tokenization models for low-level code analysis, contributing to the robustness and scalability of Natural Language Model (NLM)-based binary analysis workflows.
- Abstract(参考訳): トークン化は、アセンブリコード解析において基本的なものであり、語彙サイズ、セマンティックカバレッジ、下流タスクにおける外在的パフォーマンスといった固有の特性に影響を与える。
その重要性にもかかわらず、アセンブリコードのコンテキストにおけるトークン化は未探索領域のままである。
本研究では,自然言語処理(NLP)トークン化モデルと語彙サイズなどのパラメータ選択の本質的特性を評価することで,このギャップに対処することを目的とする。
我々は、アセンブリコードのユニークな特徴に合わせて、プリプロセスのカスタマイズオプションとプリトークン化ルールについて検討する。
さらに、関数シグネチャ予測のような下流タスクに対する影響も評価します。
そこで我々は,様々なトークン化モデルについて徹底的な研究を行い,アセンブリ命令を符号化し,意味的ニュアンスをキャプチャする際の効率を体系的に分析する。
固有の評価を通じて,トークン化効率,語彙圧縮,組立符号の表現忠実度に基づくトークン化器の比較を行う。
本稿では,デコーダのみのLarge Language Model (LLM) Llama 3.2, エンコーダのみの変換器BERT, エンコーダ-デコーダモデルBARTといった最先端の事前訓練モデルを用いて, トークン化器の有効性を評価する。
予備的な知見は、トークン化剤の選択が下流のパフォーマンスに大きく影響し、内在的指標が外因的評価結果の部分的かつ不完全な予測可能性を提供することを示している。
これらの結果から,本質的なトークン化特性と実際のアセンブリコードタスクにおけるそれらの実用性との複雑なトレードオフが明らかとなった。
最終的に、本研究では、低レベルコード解析のためのトークン化モデルの最適化に関する貴重な洞察を提供し、自然言語モデル(NLM)に基づくバイナリ分析ワークフローの堅牢性とスケーラビリティに寄与する。
関連論文リスト
- Compressed code: the hidden effects of quantization and distillation on programming tokens [0.0]
大規模言語モデル(LLM)は例外的なコード生成機能を示しているが、トークンレベルのメカニズムはいまだ検討されていない。
本稿では,明示的なプロンプトを必要とせず,モデル行動に関する洞察を提供する,新しいコールドスタート確率解析手法を提案する。
本稿では,異なるモデル最適化手法がトークンレベルの表現とコード生成品質にどのように影響するかを包括的に評価する。
論文 参考訳(メタデータ) (2026-01-05T21:32:47Z) - Unveiling Decision-Making in LLMs for Text Classification : Extraction of influential and interpretable concepts with Sparse Autoencoders [0.0]
本稿では,テキスト分類に適した新しいSAEアーキテクチャを提案する。
我々はこのアーキテクチャを、ConceptShap、Independent Component Analysis、その他のSAEベースの概念抽出技術といった確立した手法と比較した。
私たちのアーキテクチャは,抽出した特徴の因果性と解釈性の両方を改善している。
論文 参考訳(メタデータ) (2025-06-30T15:18:50Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer [15.689556592544667]
本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。
ProTSTは、独特の木のような構造に基づく階層的なトレーニングプロセスを採用している。
その結果, ProTSTは従来の2段階トレーニングに比べて14.8%改善した(F1, MRR, Recall@1)。
論文 参考訳(メタデータ) (2024-12-15T13:04:29Z) - When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。