論文の概要: XFL: eXtreme Function Labeling
- arxiv url: http://arxiv.org/abs/2107.13404v1
- Date: Wed, 28 Jul 2021 14:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 13:46:01.759981
- Title: XFL: eXtreme Function Labeling
- Title(参考訳): XFL: eXtreme Function Labeling
- Authors: James Patrick-Evans, Moritz Dannehl, Johannes Kinder
- Abstract要約: バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
- 参考スコア(独自算出の注目度): 3.9876810376226053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse engineers would benefit from identifiers like function names, but
these are usually unavailable in binaries. Training a machine learning model to
predict function names automatically is promising but fundamentally hard due to
the enormous number of classes. In this paper, we introduce eXtreme Function
Labeling (XFL), an extreme multi-label learning approach to selecting
appropriate labels for binary functions. XFL splits function names into tokens,
treating each as an informative label akin to the problem of tagging texts in
natural language. To capture the semantics of binary code, we introduce DEXTER,
a novel function embedding that combines static analysis-based features with
local context from the call graph and global context from the entire binary. We
demonstrate that XFL outperforms state-of-the-art approaches to function
labeling on a dataset of over 10,000 binaries from the Debian project,
achieving a precision of 82.5%. We also study combinations of XFL with
different published embeddings for binary functions and show that DEXTER
consistently improves over the state of the art in information gain. As a
result, we are able to show that binary function labeling is best phrased in
terms of multi-label learning, and that binary function embeddings benefit from
moving beyond just learning from syntax.
- Abstract(参考訳): リバースエンジニアは関数名のような識別子の恩恵を受けるが、通常はバイナリでは利用できない。
機械学習モデルを自動で関数名を予測するようにトレーニングすることは有望だが、クラス数が多いため基本的に難しい。
本稿では,バイナリ関数に対して適切なラベルを選択するための,極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を提案する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために、静的解析に基づく機能とコールグラフからのローカルコンテキストとバイナリ全体からのグローバルコンテキストを組み合わせた、新しい関数埋め込みであるDEXTERを導入する。
xflがdebianプロジェクトの10,000以上のバイナリのデータセット上の関数ラベリングの最先端のアプローチよりも優れており、精度は82.5%である。
また、xfl と異なるバイナリ関数の埋め込みの組み合わせを研究し、dexter が情報ゲインの最先端において一貫して改善されていることを示す。
その結果、バイナリ関数のラベル付けがマルチラベル学習において最適であることを示すことができ、バイナリ関数の埋め込みは単に構文から学ぶこと以上の恩恵を受けることができる。
関連論文リスト
- BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding [3.9473538223192293]
本稿では,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に組み合わせたBLensを提案する。
実験では,BLensが芸術の状態を著しく上回っていることを実証した。
論文 参考訳(メタデータ) (2024-09-12T09:49:34Z) - Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning [10.668991471782618]
投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。
Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。
エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
論文 参考訳(メタデータ) (2024-05-15T06:01:40Z) - Incorporating Lexical and Syntactic Knowledge for Unsupervised Cross-Lingual Transfer [4.944761231728674]
我々は"Lexicon-Syntax Enhanced Multilingual BERT"と呼ばれる新しいフレームワークを提案する。
我々は、ベースモデルとしてMultilingual BERTを使用し、学習能力を高めるために2つの手法を用いています。
実験の結果、このフレームワークはゼロショット・クロスランガル転送のすべてのベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-04-25T14:10:52Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - NP$^2$L: Negative Pseudo Partial Labels Extraction for Graph Neural
Networks [48.39834063008816]
擬似ラベルはグラフニューラルネットワーク(GNN)で使われ、メッセージパッシングレベルでの学習を支援する。
本稿では,GNNにおいて擬似ラベルを使用する新しい手法を提案する。
本手法は,部分ラベルの重なりが無く,負のノード対関係として定義される場合,より正確であることを示す。
論文 参考訳(メタデータ) (2023-10-02T11:13:59Z) - Symbol tuning improves in-context learning in language models [144.58397538701803]
In-context input-label pairs におけるシンボルチューニング - 言語モデルを微調整する。
記号チューニングは、モデルが命令や自然言語ラベルを使ってタスクを把握できない場合、代わりに入力ラベルのマッピングを学習しなければならないという直感を利用する。
シンボルチューニングは、目に見えないコンテキスト内学習タスクのパフォーマンスを向上し、不特定なプロンプトに対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2023-05-15T01:59:58Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。