Fugu-MT 論文翻訳(概要): XFL: eXtreme Function Labeling

論文の概要: XFL: eXtreme Function Labeling

arxiv url: http://arxiv.org/abs/2107.13404v1
Date: Wed, 28 Jul 2021 14:49:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-29 13:46:01.759981
Title: XFL: eXtreme Function Labeling
Title（参考訳）: XFL: eXtreme Function Labeling
Authors: James Patrick-Evans, Moritz Dannehl, Johannes Kinder
Abstract要約: バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。 XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
参考スコア（独自算出の注目度）: 3.9876810376226053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reverse engineers would benefit from identifiers like function names, but these are usually unavailable in binaries. Training a machine learning model to predict function names automatically is promising but fundamentally hard due to the enormous number of classes. In this paper, we introduce eXtreme Function Labeling (XFL), an extreme multi-label learning approach to selecting appropriate labels for binary functions. XFL splits function names into tokens, treating each as an informative label akin to the problem of tagging texts in natural language. To capture the semantics of binary code, we introduce DEXTER, a novel function embedding that combines static analysis-based features with local context from the call graph and global context from the entire binary. We demonstrate that XFL outperforms state-of-the-art approaches to function labeling on a dataset of over 10,000 binaries from the Debian project, achieving a precision of 82.5%. We also study combinations of XFL with different published embeddings for binary functions and show that DEXTER consistently improves over the state of the art in information gain. As a result, we are able to show that binary function labeling is best phrased in terms of multi-label learning, and that binary function embeddings benefit from moving beyond just learning from syntax.
Abstract（参考訳）: リバースエンジニアは関数名のような識別子の恩恵を受けるが、通常はバイナリでは利用できない。機械学習モデルを自動で関数名を予測するようにトレーニングすることは有望だが、クラス数が多いため基本的に難しい。本稿では,バイナリ関数に対して適切なラベルを選択するための,極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を提案する。 XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。バイナリコードのセマンティクスをキャプチャするために、静的解析に基づく機能とコールグラフからのローカルコンテキストとバイナリ全体からのグローバルコンテキストを組み合わせた、新しい関数埋め込みであるDEXTERを導入する。 xflがdebianプロジェクトの10,000以上のバイナリのデータセット上の関数ラベリングの最先端のアプローチよりも優れており、精度は82.5%である。また、xfl と異なるバイナリ関数の埋め込みの組み合わせを研究し、dexter が情報ゲインの最先端において一貫して改善されていることを示す。その結果、バイナリ関数のラベル付けがマルチラベル学習において最適であることを示すことができ、バイナリ関数の埋め込みは単に構文から学ぶこと以上の恩恵を受けることができる。

関連論文リスト

Multi-label feature selection based on binary hashing learning and dynamic graph constraints [4.471768926085078]
本研究では,BHDG(Binary Hashing and Dynamic Graph Constraint)と呼ばれる新しいマルチラベル特徴選択手法を提案する。 BHDGは低次元のバイナリハッシュ符号を擬似ラベルとして使用し、ノイズを低減し、表現の最小化を改善する。 BHDGは6つの評価指標で10の最先端メソッドを上回ります。
論文参考訳（メタデータ） (2025-03-18T03:58:31Z)
LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [54.82915844507371]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文参考訳（メタデータ） (2025-03-05T09:45:22Z)
On the Role of Pre-trained Embeddings in Binary Code Analysis [7.161446721947512]
事前訓練されたアセンブリコードの埋め込みは、バイナリコード解析タスクを解決するためのゴールドスタンダードになっている。自然言語処理とは対照的に、ラベル情報はバイナリコード解析において多くのタスクにおいて不足しない。我々は,120万関数のコーパスを用いて,5つの下流タスクに対するアセンブリコードに対する最近の埋め込みを体系的に評価した。
論文参考訳（メタデータ） (2025-02-12T10:50:46Z)
BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding [3.9473538223192293]
本稿では,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に組み合わせたBLensを提案する。実験では,BLensが芸術の状態を著しく上回っていることを実証した。
論文参考訳（メタデータ） (2024-09-12T09:49:34Z)
Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning [10.668991471782618]
投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。 Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
論文参考訳（メタデータ） (2024-05-15T06:01:40Z)
Incorporating Lexical and Syntactic Knowledge for Unsupervised Cross-Lingual Transfer [4.944761231728674]
我々は"Lexicon-Syntax Enhanced Multilingual BERT"と呼ばれる新しいフレームワークを提案する。我々は、ベースモデルとしてMultilingual BERTを使用し、学習能力を高めるために2つの手法を用いています。実験の結果、このフレームワークはゼロショット・クロスランガル転送のすべてのベースラインを一貫して上回ることを示した。
論文参考訳（メタデータ） (2024-04-25T14:10:52Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。 CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文参考訳（メタデータ） (2023-10-24T14:20:39Z)
NP$^2$L: Negative Pseudo Partial Labels Extraction for Graph Neural Networks [48.39834063008816]
擬似ラベルはグラフニューラルネットワーク(GNN)で使われ、メッセージパッシングレベルでの学習を支援する。本稿では,GNNにおいて擬似ラベルを使用する新しい手法を提案する。本手法は,部分ラベルの重なりが無く,負のノード対関係として定義される場合,より正確であることを示す。
論文参考訳（メタデータ） (2023-10-02T11:13:59Z)
Symbol tuning improves in-context learning in language models [144.58397538701803]
In-context input-label pairs におけるシンボルチューニング - 言語モデルを微調整する。記号チューニングは、モデルが命令や自然言語ラベルを使ってタスクを把握できない場合、代わりに入力ラベルのマッピングを学習しなければならないという直感を利用する。シンボルチューニングは、目に見えないコンテキスト内学習タスクのパフォーマンスを向上し、不特定なプロンプトに対してより堅牢であることを示す。
論文参考訳（メタデータ） (2023-05-15T01:59:58Z)
TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。 CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文参考訳（メタデータ） (2023-04-15T12:52:23Z)
SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。 SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文参考訳（メタデータ） (2022-09-06T12:09:45Z)
Generalized Funnelling: Ensemble Learning and Heterogeneous Document Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。 Emph Generalized Funnelling (gFun) はFunの一般化である。 gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2021-09-17T23:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。