論文の概要: A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2412.11177v2
- Date: Sun, 22 Dec 2024 07:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:50.162639
- Title: A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer
- Title(参考訳): バイナリコード埋め込みと知識伝達の統合化のためのプログレッシブトランスフォーマ
- Authors: Hanxiao Lu, Hongyu Cai, Yiming Liang, Antonio Bianchi, Z. Berkay Celik,
- Abstract要約: 本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。
ProTSTは、独特の木のような構造に基づく階層的なトレーニングプロセスを採用している。
その結果, ProTSTは従来の2段階トレーニングに比べて14.8%改善した(F1, MRR, Recall@1)。
- 参考スコア(独自算出の注目度): 15.689556592544667
- License:
- Abstract: Language model approaches have recently been integrated into binary analysis tasks, such as function similarity detection and function signature recovery. These models typically employ a two-stage training process: pre-training via Masked Language Modeling (MLM) on machine code and fine-tuning for specific tasks. While MLM helps to understand binary code structures, it ignores essential code characteristics, including control and data flow, which negatively affect model generalization. Recent work leverages domain-specific features (e.g., control flow graphs and dynamic execution traces) in transformer-based approaches to improve binary code semantic understanding. However, this approach involves complex feature engineering, a cumbersome and time-consuming process that can introduce predictive uncertainty when dealing with stripped or obfuscated code, leading to a performance drop. In this paper, we introduce ProTST, a novel transformer-based methodology for binary code embedding. ProTST employs a hierarchical training process based on a unique tree-like structure, where knowledge progressively flows from fundamental tasks at the root to more specialized tasks at the leaves. This progressive teacher-student paradigm allows the model to build upon previously learned knowledge, resulting in high-quality embeddings that can be effectively leveraged for diverse downstream binary analysis tasks. The effectiveness of ProTST is evaluated in seven binary analysis tasks, and the results show that ProTST yields an average validation score (F1, MRR, and Recall@1) improvement of 14.8% compared to traditional two-stage training and an average validation score of 10.7% compared to multimodal two-stage frameworks.
- Abstract(参考訳): 言語モデルアプローチは、関数類似性検出や関数シグネチャリカバリなど、最近バイナリ分析タスクに統合されている。
これらのモデルは典型的には2段階のトレーニングプロセスを採用しており、マシンコード上でのMasked Language Modeling (MLM)による事前トレーニングと、特定のタスクの微調整である。
MLMはバイナリコード構造を理解するのに役立つが、制御やデータフローなど、モデル一般化に悪影響を及ぼす重要なコード特性を無視する。
最近の研究は、トランスフォーマーベースのアプローチでドメイン固有の機能(制御フローグラフや動的実行トレースなど)を活用し、バイナリコードの意味理解を改善する。
しかし、このアプローチには複雑な機能エンジニアリングと、取り除かれたコードや難読化されたコードを扱う際の予測の不確実性を導入し、パフォーマンスの低下につながる、面倒で時間のかかるプロセスが含まれます。
本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。
ProTSTは独特の木のような構造に基づく階層的なトレーニングプロセスを採用しており、知識は根の基本的なタスクから葉のより専門的なタスクへと徐々に流れていく。
このプログレッシブな教師/学生のパラダイムは、学習済みの知識に基づいてモデルを構築することができ、その結果、様々な下流バイナリ分析タスクに効果的に活用できる高品質な埋め込みをもたらす。
ProTSTの有効性は7つのバイナリ分析タスクで評価され、その結果、ProTSTは従来の2段階トレーニングと比較して14.8%改善し、マルチモーダル2段階フレームワークに比べて10.7%改善した。
関連論文リスト
- CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases [9.422025563792818]
人間指向バイナリリバースエンジニアリング(Human-Oriented Binary Reverse Engineering)は、ソースコードに関連する可読性のあるコンテンツにバイナリコードを持ち上げることを目的としている。
本稿では,バイナリソースエンコーダデコーダモデルと,バイナリ解析のためのブラックボックスLCMを組み込んだ新しいプローブ・アンド・リカバリフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T00:17:44Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Exploiting Transformer in Sparse Reward Reinforcement Learning for
Interpretable Temporal Logic Motion Planning [9.801466218905604]
オートマトンベースのアルゴリズムは、考慮されたタスクに対して、手動でカスタマイズされた状態表現に依存する。
本研究では,Transformer の構造的特徴を2回活用する Double-Transformer-Guided Temporal Logic framework (T2TL) を開発した。
セマンティクスとして、複雑なタスクを学習可能なサブゴールに分解するために進行を利用する。
論文 参考訳(メタデータ) (2022-09-27T07:41:11Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。