論文の概要: PalmTree: Learning an Assembly Language Model for Instruction Embedding
- arxiv url: http://arxiv.org/abs/2103.03809v1
- Date: Thu, 21 Jan 2021 22:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:00:42.187518
- Title: PalmTree: Learning an Assembly Language Model for Instruction Embedding
- Title(参考訳): palmtree: 命令埋め込みのためのアセンブリ言語モデルを学ぶ
- Authors: Xuezixiang Li, Qu Yu, Heng Yin
- Abstract要約: 汎用命令埋め込み生成のためのアセンブリ言語モデルであるPalmTreeの事前トレーニングを提案する。
PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。
- 参考スコア(独自算出の注目度): 8.74990895782223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has demonstrated its strengths in numerous binary analysis
tasks, including function boundary detection, binary code search, function
prototype inference, value set analysis, etc. When applying deep learning to
binary analysis tasks, we need to decide what input should be fed into the
neural network model. More specifically, we need to answer how to represent an
instruction in a fixed-length vector. The idea of automatically learning
instruction representations is intriguing, however the existing schemes fail to
capture the unique characteristics of disassembly. These schemes ignore the
complex intra-instruction structures and mainly rely on control flow in which
the contextual information is noisy and can be influenced by compiler
optimizations.
In this paper, we propose to pre-train an assembly language model called
PalmTree for generating general-purpose instruction embeddings by conducting
self-supervised training on large-scale unlabeled binary corpora. PalmTree
utilizes three pre-training tasks to capture various characteristics of
assembly language. These training tasks overcome the problems in existing
schemes, thus can help to generate high-quality representations. We conduct
both intrinsic and extrinsic evaluations, and compare PalmTree with other
instruction embedding schemes. PalmTree has the best performance for intrinsic
metrics, and outperforms the other instruction embedding schemes for all
downstream tasks.
- Abstract(参考訳): ディープラーニングは、関数境界検出、バイナリコード検索、関数プロトタイプ推論、値セット分析など、多数のバイナリ分析タスクにおいて、その強みを実証している。
二元分析タスクにディープラーニングを適用する場合、ニューラルネットワークモデルにどの入力を入力すべきかを決定する必要があります。
具体的には、固定長ベクトルで命令を表現する方法に答える必要がある。
命令表現を自動的に学習するというアイデアは興味深いが、既存のスキームは分解のユニークな特徴を捉えていない。
これらのスキームは複雑なインストラクション構造を無視し、主にコンテキスト情報がノイズの多い制御フローに依存し、コンパイラの最適化の影響を受けやすい。
本稿では,大規模非ラベルバイナリコーパス上で自己教師あり学習を行うことで汎用命令埋め込みを生成するために,palmtreeと呼ばれるアセンブリ言語モデルを事前学習することを提案する。
PalmTreeは3つの事前訓練タスクを使用して、アセンブリ言語の様々な特性をキャプチャする。
これらのトレーニングタスクは既存のスキームの問題を克服し、高品質な表現を生成するのに役立つ。
内在的および外在的評価を行い、PalmTreeと他の命令埋め込み方式との比較を行う。
PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。
関連論文リスト
- Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Learning compositional programs with arguments and sampling [12.790055619773565]
私たちは、特定の要件を満たすプログラムを見つけるために、機械学習モデルをトレーニングします。
我々は、引数を受理できる関数を生成することを学ぶことによって、アートモデルAlphaNPIの状態を拡張します。
論文 参考訳(メタデータ) (2021-09-01T21:27:41Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - Learning compositional structures for semantic graph parsing [81.41592892863979]
本稿では、AM依存性解析をニューラル潜在変数モデルで直接トレーニングする方法を示す。
本モデルでは,いくつかの言語現象を独自に把握し,教師あり学習に匹敵する精度を達成している。
論文 参考訳(メタデータ) (2021-06-08T14:20:07Z) - Improving Tree-Structured Decoder Training for Code Generation via
Mutual Learning [27.080718377956693]
コード生成は、入力された自然言語の発話に与えられたコードを自動的に生成することを目的としている。
まず、異なるデコードを持つニューラルコード生成モデル間のコンテキストモデリングの違いを網羅的に分析する。
本稿では,これらのモデルを協調的に学習するための相互学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-31T08:44:13Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - Network Support for High-performance Distributed Machine Learning [17.919773898228716]
学習ノード(計算を行う)と情報ノード(データを提供する)の両方をキャプチャするシステムモデルを提案する。
次に,学習課題を完了させるために,学習ノードと情報ノードが協調して行うべき課題と,実行すべきイテレーション数を選択する問題を定式化する。
我々はDoubleClimbというアルゴリズムを考案し、1+1/|I|競合解を見つけることができる。
論文 参考訳(メタデータ) (2021-02-05T19:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。