論文の概要: XFL: eXtreme Function Labeling
- arxiv url: http://arxiv.org/abs/2107.13404v1
- Date: Wed, 28 Jul 2021 14:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 13:46:01.759981
- Title: XFL: eXtreme Function Labeling
- Title(参考訳): XFL: eXtreme Function Labeling
- Authors: James Patrick-Evans, Moritz Dannehl, Johannes Kinder
- Abstract要約: バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
- 参考スコア(独自算出の注目度): 3.9876810376226053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse engineers would benefit from identifiers like function names, but
these are usually unavailable in binaries. Training a machine learning model to
predict function names automatically is promising but fundamentally hard due to
the enormous number of classes. In this paper, we introduce eXtreme Function
Labeling (XFL), an extreme multi-label learning approach to selecting
appropriate labels for binary functions. XFL splits function names into tokens,
treating each as an informative label akin to the problem of tagging texts in
natural language. To capture the semantics of binary code, we introduce DEXTER,
a novel function embedding that combines static analysis-based features with
local context from the call graph and global context from the entire binary. We
demonstrate that XFL outperforms state-of-the-art approaches to function
labeling on a dataset of over 10,000 binaries from the Debian project,
achieving a precision of 82.5%. We also study combinations of XFL with
different published embeddings for binary functions and show that DEXTER
consistently improves over the state of the art in information gain. As a
result, we are able to show that binary function labeling is best phrased in
terms of multi-label learning, and that binary function embeddings benefit from
moving beyond just learning from syntax.
- Abstract(参考訳): リバースエンジニアは関数名のような識別子の恩恵を受けるが、通常はバイナリでは利用できない。
機械学習モデルを自動で関数名を予測するようにトレーニングすることは有望だが、クラス数が多いため基本的に難しい。
本稿では,バイナリ関数に対して適切なラベルを選択するための,極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を提案する。
XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。
バイナリコードのセマンティクスをキャプチャするために、静的解析に基づく機能とコールグラフからのローカルコンテキストとバイナリ全体からのグローバルコンテキストを組み合わせた、新しい関数埋め込みであるDEXTERを導入する。
xflがdebianプロジェクトの10,000以上のバイナリのデータセット上の関数ラベリングの最先端のアプローチよりも優れており、精度は82.5%である。
また、xfl と異なるバイナリ関数の埋め込みの組み合わせを研究し、dexter が情報ゲインの最先端において一貫して改善されていることを示す。
その結果、バイナリ関数のラベル付けがマルチラベル学習において最適であることを示すことができ、バイナリ関数の埋め込みは単に構文から学ぶこと以上の恩恵を受けることができる。
関連論文リスト
- CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - NP$^2$L: Negative Pseudo Partial Labels Extraction for Graph Neural
Networks [48.39834063008816]
擬似ラベルはグラフニューラルネットワーク(GNN)で使われ、メッセージパッシングレベルでの学習を支援する。
本稿では,GNNにおいて擬似ラベルを使用する新しい手法を提案する。
本手法は,部分ラベルの重なりが無く,負のノード対関係として定義される場合,より正確であることを示す。
論文 参考訳(メタデータ) (2023-10-02T11:13:59Z) - Improving Zero-Shot Generalization for CLIP with Synthesized Prompts [135.4317555866831]
既存のほとんどのメソッドは、実世界のアプリケーションでは保持できない全てのクラスにラベル付きデータを必要とする。
既存の微調整法を改善するために,textbfSynttextbfHestextbfIzed textbfPrompts(textbfSHIP)と呼ばれるプラグアンドプレイ生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T15:15:45Z) - Symbol tuning improves in-context learning in language models [144.58397538701803]
In-context input-label pairs におけるシンボルチューニング - 言語モデルを微調整する。
記号チューニングは、モデルが命令や自然言語ラベルを使ってタスクを把握できない場合、代わりに入力ラベルのマッピングを学習しなければならないという直感を利用する。
シンボルチューニングは、目に見えないコンテキスト内学習タスクのパフォーマンスを向上し、不特定なプロンプトに対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2023-05-15T01:59:58Z) - SepLL: Separating Latent Class Labels from Weak Supervision Noise [4.730767228515796]
弱い教師付き学習では、ラベル付け機能は自動的にデータサンプルにラベルを割り当て、しばしばうるさい。
本研究では,2種類の補完情報を分離し,弱いラベルから学習する手法を提案する。
我々のモデルは最先端技術と競合し、新しい最高の平均性能をもたらす。
論文 参考訳(メタデータ) (2022-10-25T10:33:45Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z) - Automatic Synthesis of Diverse Weak Supervision Sources for Behavior
Analysis [37.077883083886114]
AutoSWAPはデータ効率の高いタスクレベルのラベリング機能を自動的に合成するフレームワークである。
本稿では,AutoSWAPがラベル付け機能を自動生成する有効な方法であり,行動分析の専門的労力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-11-30T07:51:12Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。