論文の概要: On Training a Neural Network to Explain Binaries
- arxiv url: http://arxiv.org/abs/2404.19631v1
- Date: Tue, 30 Apr 2024 15:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:46:04.932509
- Title: On Training a Neural Network to Explain Binaries
- Title(参考訳): ニューラルネットワークによるバイナリ記述のトレーニングについて
- Authors: Alexander Interrante-Grant, Andy Davis, Heather Preslier, Tim Leek,
- Abstract要約: 本研究では,バイナリコード理解のタスクにおいて,ディープニューラルネットワークをトレーニングする可能性を検討する。
私たちは、Stack Overflowの1.1Mエントリを含むキャプチャから派生した、独自のデータセットを構築しています。
- 参考スコア(独自算出の注目度): 43.27448128029069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we begin to investigate the possibility of training a deep neural network on the task of binary code understanding. Specifically, the network would take, as input, features derived directly from binaries and output English descriptions of functionality to aid a reverse engineer in investigating the capabilities of a piece of closed-source software, be it malicious or benign. Given recent success in applying large language models (generative AI) to the task of source code summarization, this seems a promising direction. However, in our initial survey of the available datasets, we found nothing of sufficiently high quality and volume to train these complex models. Instead, we build our own dataset derived from a capture of Stack Overflow containing 1.1M entries. A major result of our work is a novel dataset evaluation method using the correlation between two distances on sample pairs: one distance in the embedding space of inputs and the other in the embedding space of outputs. Intuitively, if two samples have inputs close in the input embedding space, their outputs should also be close in the output embedding space. We found this Embedding Distance Correlation (EDC) test to be highly diagnostic, indicating that our collected dataset and several existing open-source datasets are of low quality as the distances are not well correlated. We proceed to explore the general applicability of EDC, applying it to a number of qualitatively known good datasets and a number of synthetically known bad ones and found it to be a reliable indicator of dataset value.
- Abstract(参考訳): 本研究では,バイナリコード理解のタスクにおいて,ディープニューラルネットワークをトレーニングする可能性について検討する。
具体的には、ネットワークは入力として、バイナリから直接派生した機能と、リバースエンジニアがクローズドソースソフトウェアの性能を調査するのを助けるために、機能の英文記述を出力する。
ソースコードの要約作業に大規模言語モデル(生成AI)を適用した最近の成功を考えると、これは有望な方向と思われる。
しかし、利用可能なデータセットについての最初の調査では、これらの複雑なモデルをトレーニングするのに十分な品質とボリュームは見つからなかった。
代わりに、1.1Mエントリを含むStack Overflowのキャプチャから派生した、独自のデータセットを構築します。
本研究の主な成果は,入力の埋め込み空間における1つの距離と出力の埋め込み空間における2つの距離の相関を用いた新しいデータセット評価手法である。
直感的には、2つのサンプルが入力埋め込み空間に近接している場合、出力は出力埋め込み空間にも近接する。
このEmbedding Distance correlation (EDC) テストは高度に診断されており、我々の収集したデータセットと既存のオープンソースデータセットは、距離の相関がよくないため、低品質であることを示している。
我々は、EDCの一般的な適用性を探り、定性的に知られた良いデータセットと、合成的に知られた悪いデータセットに応用し、データセット値の信頼性の高い指標であることがわかった。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - Nearest Neighbor-Based Contrastive Learning for Hyperspectral and LiDAR
Data Classification [45.026868970899514]
本稿では,Nearest Neighbor-based Contrastive Learning Network (NNCNet)を提案する。
具体的には,近隣地域間のセマンティック関係を強化した近傍データ拡張手法を提案する。
さらに,HSIデータとLiDARデータ間の2次・高次特徴相互作用を生かしたバイリニアアテンションモジュールを設計する。
論文 参考訳(メタデータ) (2023-01-09T13:43:54Z) - Semi-Supervised Building Footprint Generation with Feature and Output
Consistency Training [17.6179873429447]
一貫性トレーニングを備えた最先端の半教師付きセマンティックセマンティクスネットワークは、この問題に対処するのに役立ちます。
ラベルなしサンプルのエンドツーエンドネットワークトレーニングにおいて,特徴と出力の整合性を統合することを提案する。
実験により, 提案手法により, より完全な構造を抽出できることが示唆された。
論文 参考訳(メタデータ) (2022-05-17T14:55:13Z) - Iterative Rule Extension for Logic Analysis of Data: an MILP-based
heuristic to derive interpretable binary classification from large datasets [0.6526824510982799]
この研究は、最大10,000のサンプルとサンプル特性を持つデータからDNFのブールフレーズを抽象化するアルゴリズムIRELANDを提示する。
その結果、大規模なデータセットIRELANDは現在の最先端よりも優れており、現在のモデルがメモリを使い果たしたり、過剰なランタイムを必要とするデータセットのソリューションを見つけることができることがわかった。
論文 参考訳(メタデータ) (2021-10-25T13:31:30Z) - Embracing Structure in Data for Billion-Scale Semantic Product Search [14.962039276966319]
我々は、数十億の規模でダイアドニューラル埋め込みモデルを訓練し、展開するための原則的アプローチを提案する。
実世界のデータセットの自然な構造を活用することで、両方の課題に効率的に対処できることが示される。
論文 参考訳(メタデータ) (2021-10-12T16:14:13Z) - Anchor-free Oriented Proposal Generator for Object Detection [59.54125119453818]
オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。
今日では、指向性検出器は主に水平方向の箱を中間体として使用し、それらから指向性のある箱を導出している。
本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。
論文 参考訳(メタデータ) (2021-10-05T10:45:51Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。