Fugu-MT 論文翻訳(概要): BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding

論文の概要: BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding

arxiv url: http://arxiv.org/abs/2409.07889v2
Date: Mon, 03 Feb 2025 15:26:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.181015
Title: BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding
Title（参考訳）: BLens: Ensemble Embedding を用いたバイナリ関数のコントラストキャプション
Authors: Tristan Benoit, Yunru Wang, Moritz Dannehl, Johannes Kinder,
Abstract要約: 本稿では,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に組み合わせたBLensを提案する。我々の実験は、BLensが芸術の状態を著しく上回ることを示した。
参考スコア（独自算出の注目度）: 3.9473538223192293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Function names can greatly aid human reverse engineers, which has spurred the development of machine learning-based approaches to predicting function names in stripped binaries. Much current work in this area now uses transformers, applying a metaphor of machine translation from code to function names. Still, function naming models face challenges in generalizing to projects unrelated to the training set. In this paper, we take a completely new approach by transferring advances in automated image captioning to the domain of binary reverse engineering, such that different parts of a binary function can be associated with parts of its name. We propose BLens, which combines multiple binary function embeddings into a new ensemble representation, aligns it with the name representation latent space via a contrastive learning approach, and generates function names with a transformer architecture tailored for function names. Our experiments demonstrate that BLens significantly outperforms the state of the art. In the usual setting of splitting per binary, we achieve an $F_1$ score of 0.79 compared to 0.70. In the cross-project setting, which emphasizes generalizability, we achieve an $F_1$ score of 0.46 compared to 0.29. Finally, in an experimental setting reducing shared components across projects, we achieve an $F_1$ score of $0.32$ compared to $0.19$.
Abstract（参考訳）: 関数名は人間のリバースエンジニアを大いに助けることができ、それによって、取り除かれたバイナリの関数名を予測する機械学習ベースのアプローチの開発が加速した。この分野における現在の作業の多くはトランスフォーマーを使用しており、コードから関数名への機械翻訳のメタファーを適用している。それでも、関数命名モデルは、トレーニングセットとは無関係なプロジェクトに一般化する際の課題に直面している。本稿では,自動字幕化の進歩をバイナリリバースエンジニアリングの領域に転送することで,バイナリ関数の異なる部分をその名前の一部に関連付けるという,全く新しいアプローチをとる。我々は,複数のバイナリ関数の埋め込みを新しいアンサンブル表現に結合し,コントラスト学習手法を用いて名前表現潜在空間と整列し,関数名を関数名に適した変換器アーキテクチャで生成するBLensを提案する。実験の結果,BLensは最先端技術よりも優れていた。通常のバイナリごとの分割設定では、0.70に対してF_1$スコアが0.79である。一般化性を強調するクロスプロジェクト設定では、0.29に対してF_1$スコア0.46を得る。最後に、プロジェクト間で共有コンポーネントを減らす実験的な設定で、$F_1$スコアが0.32$であるのに対して、$0.19$である。

関連論文リスト

Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文参考訳（メタデータ） (2025-05-29T17:22:00Z)
Magnet: Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation [85.68881632498909]
本稿では,大規模言語モデルエージェントのための高品質なトレーニングトラジェクトリを合成するための原則的フレームワークを提案する。このフレームワークは、関数シグネチャパスからクエリのシーケンスと実行可能な関数呼び出しへの自動的で反復的な変換に基づいている。実験の結果,14BモデルであるMagnetic-14B-mDPOでは,BFCL-v3では68.01,ToolQueryでは73.30が得られた。
論文参考訳（メタデータ） (2025-03-10T20:13:07Z)
Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは入力埋め込み層を拡張し、言語モデルの性能を向上させる新しい方法である。埋め込みは各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。 SCONEは2つの新しいスケーリング戦略を実現する。$n$-gramの埋め込み数を増やし、それらを学ぶために使用するモデルをスケーリングする。
論文参考訳（メタデータ） (2025-02-03T18:59:32Z)
Ehrenfeucht-Haussler Rank and Chain of Thought [51.33559894954108]
関数の階数$f$は、単層トランスフォーマーデコーダで要求される思考の連鎖の最小値に対応することを示す。また、ブール列における1の$k$-thの発生位置を同定する問題を解析し、$k$CoTステップが必要であることを証明した。
論文参考訳（メタデータ） (2025-01-22T16:30:58Z)
PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。 PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T15:42:58Z)
Enhancing Function Name Prediction using Votes-Based Name Tokenization and Multi-Task Learning [10.668991471782618]
投票による名前のトークン化とマルチタスク学習を用いた関数名予測を行うフレームワークを提案する。 Epitomeは、事前訓練されたアセンブリ言語モデルとグラフニューラルネットワークにより、包括的な機能意味学を学ぶ。エピトームは最先端の関数名予測ツールを44.34%、64.16%、54.44%の精度、リコール、F1スコアで上回っている。
論文参考訳（メタデータ） (2024-05-15T06:01:40Z)
Cross-Inlining Binary Function Similarity Detection [16.923959153965857]
クロスインラインマッチングのためのパターンベースモデルCI-Detectorを提案する。以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。
論文参考訳（メタデータ） (2024-01-11T08:42:08Z)
VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity [36.341893383865745]
VexIR2Vecはアーキテクチャニュートラル中間表現(IR)であるVEX-IRを用いたバイナリ類似性のためのアプローチである我々は、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。 VexIR2Vecは3.1ドル-3.5ドルで、最も近いベースラインとマグニチュードよりも高速である。
論文参考訳（メタデータ） (2023-12-01T11:22:10Z)
CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。 CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文参考訳（メタデータ） (2023-10-24T14:20:39Z)
Symbol Preference Aware Generative Models for Recovering Variable Names from Stripped Binary [18.05110624825475]
逆コンパイルにおける顕著な課題は、変数名を復元することである。本稿では,モデルバイアスと潜在的幻覚を緩和しながら生成モデルの強みを利用する新しい手法を提案する。我々は、事前訓練された生成モデルCodeGemma-2BとCodeLlama-7BのプロトタイプGenNmを構築した。
論文参考訳（メタデータ） (2023-06-05T02:39:48Z)
Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。 Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-03-11T16:32:09Z)
Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文参考訳（メタデータ） (2022-12-28T03:45:56Z)
UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文参考訳（メタデータ） (2022-10-28T14:04:57Z)
VarCLR: Variable Semantic Representation Pre-training via Contrastive Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。 VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。 VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文参考訳（メタデータ） (2021-12-05T18:40:32Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
XFL: eXtreme Function Labeling [3.9876810376226053]
バイナリ関数に対して適切なラベルを選択するための極端なマルチラベル学習手法であるeXtreme Function Labeling (XFL)を導入する。 XFLは関数名をトークンに分割し、自然言語でテキストをタグ付けする問題に似た情報ラベルとして扱う。バイナリコードのセマンティクスをキャプチャするために,新しい関数埋め込みであるDEXTERを導入する。
論文参考訳（メタデータ） (2021-07-28T14:49:30Z)
On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文参考訳（メタデータ） (2020-06-20T20:33:59Z)
On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文参考訳（メタデータ） (2020-02-23T22:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。