Fugu-MT 論文翻訳(概要): PalmTree: Learning an Assembly Language Model for Instruction Embedding

論文の概要: PalmTree: Learning an Assembly Language Model for Instruction Embedding

arxiv url: http://arxiv.org/abs/2103.03809v1
Date: Thu, 21 Jan 2021 22:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-21 08:00:42.187518
Title: PalmTree: Learning an Assembly Language Model for Instruction Embedding
Title（参考訳）: palmtree: 命令埋め込みのためのアセンブリ言語モデルを学ぶ
Authors: Xuezixiang Li, Qu Yu, Heng Yin
Abstract要約: 汎用命令埋め込み生成のためのアセンブリ言語モデルであるPalmTreeの事前トレーニングを提案する。 PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。
参考スコア（独自算出の注目度）: 8.74990895782223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning has demonstrated its strengths in numerous binary analysis tasks, including function boundary detection, binary code search, function prototype inference, value set analysis, etc. When applying deep learning to binary analysis tasks, we need to decide what input should be fed into the neural network model. More specifically, we need to answer how to represent an instruction in a fixed-length vector. The idea of automatically learning instruction representations is intriguing, however the existing schemes fail to capture the unique characteristics of disassembly. These schemes ignore the complex intra-instruction structures and mainly rely on control flow in which the contextual information is noisy and can be influenced by compiler optimizations. In this paper, we propose to pre-train an assembly language model called PalmTree for generating general-purpose instruction embeddings by conducting self-supervised training on large-scale unlabeled binary corpora. PalmTree utilizes three pre-training tasks to capture various characteristics of assembly language. These training tasks overcome the problems in existing schemes, thus can help to generate high-quality representations. We conduct both intrinsic and extrinsic evaluations, and compare PalmTree with other instruction embedding schemes. PalmTree has the best performance for intrinsic metrics, and outperforms the other instruction embedding schemes for all downstream tasks.
Abstract（参考訳）: ディープラーニングは、関数境界検出、バイナリコード検索、関数プロトタイプ推論、値セット分析など、多数のバイナリ分析タスクにおいて、その強みを実証している。二元分析タスクにディープラーニングを適用する場合、ニューラルネットワークモデルにどの入力を入力すべきかを決定する必要があります。具体的には、固定長ベクトルで命令を表現する方法に答える必要がある。命令表現を自動的に学習するというアイデアは興味深いが、既存のスキームは分解のユニークな特徴を捉えていない。これらのスキームは複雑なインストラクション構造を無視し、主にコンテキスト情報がノイズの多い制御フローに依存し、コンパイラの最適化の影響を受けやすい。本稿では,大規模非ラベルバイナリコーパス上で自己教師あり学習を行うことで汎用命令埋め込みを生成するために,palmtreeと呼ばれるアセンブリ言語モデルを事前学習することを提案する。 PalmTreeは3つの事前訓練タスクを使用して、アセンブリ言語の様々な特性をキャプチャする。これらのトレーニングタスクは既存のスキームの問題を克服し、高品質な表現を生成するのに役立つ。内在的および外在的評価を行い、PalmTreeと他の命令埋め込み方式との比較を行う。 PalmTreeは固有のメトリクスに対して最高のパフォーマンスを持ち、下流タスクの他の命令埋め込みスキームよりも優れています。

関連論文リスト

On the Role of Pre-trained Embeddings in Binary Code Analysis [7.161446721947512]
事前訓練されたアセンブリコードの埋め込みは、バイナリコード解析タスクを解決するためのゴールドスタンダードになっている。自然言語処理とは対照的に、ラベル情報はバイナリコード解析において多くのタスクにおいて不足しない。我々は,120万関数のコーパスを用いて,5つの下流タスクに対するアセンブリコードに対する最近の埋め込みを体系的に評価した。
論文参考訳（メタデータ） (2025-02-12T10:50:46Z)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文参考訳（メタデータ） (2024-12-16T09:47:43Z)
From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-05-30T07:54:07Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
CP-BCS: Binary Code Summarization Guided by Control Flow Graph and Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。 CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文参考訳（メタデータ） (2023-10-24T14:20:39Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
NeuDep: Neural Binary Memory Dependence Analysis [28.33030658966508]
本稿では,バイナリプログラムの実行方法に関する学習知識を活用して,メモリ依存を予測するための機械学習に基づく新しいアプローチを提案する。我々はNeuDepにアプローチを実装し、2つのコンパイラ、4つの最適化、4つの難読パスでコンパイルされた41の人気のあるソフトウェアプロジェクトで評価する。
論文参考訳（メタデータ） (2022-10-04T04:59:36Z)
BinBert: Binary Code Understanding with a Fine-tunable and Execution-aware Transformer [2.8523943706562638]
本稿では,新しいアセンブリコードモデルであるBinBertを紹介する。 BinBertは、アセンブリ命令シーケンスとシンボル実行情報の巨大なデータセットに基づいて事前トレーニングされたトランスフォーマー上に構築されている。微調整を通じて、BinBertは特定のタスクに事前学習で得られた一般的な知識をどう適用するかを学ぶ。
論文参考訳（メタデータ） (2022-08-13T17:48:52Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文参考訳（メタデータ） (2021-06-10T03:31:29Z)
Comparative Code Structure Analysis using Deep Learning for Performance Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文参考訳（メタデータ） (2021-02-12T16:59:12Z)
Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。これらのグラフは通常不完全であり、自動補完を促す。グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文参考訳（メタデータ） (2020-04-30T13:50:34Z)
Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。 Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文参考訳（メタデータ） (2020-02-03T16:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。