論文の概要: Leveraging Artificial Intelligence on Binary Code Comprehension
- arxiv url: http://arxiv.org/abs/2210.05103v1
- Date: Tue, 11 Oct 2022 02:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:05:42.299221
- Title: Leveraging Artificial Intelligence on Binary Code Comprehension
- Title(参考訳): バイナリコード理解における人工知能の活用
- Authors: Yifan Zhang
- Abstract要約: 本稿では,バイナリコードの人間の理解を支援する人工知能(AI)モデルを提案する。
具体的には、ソースコードの大規模なコーパス(変数名やコメントなど)からドメイン知識を取り入れて、バイナリコードの一般化可能な表現をキャプチャするAIモデルを構築することを提案する。
最後に、人間による理解の研究を用いて、バイナリコードに適用するモデルの性能を評価するためのメトリクスについて検討する。
- 参考スコア(独自算出の注目度): 5.236023714727536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding binary code is an essential but complex software engineering
task for reverse engineering, malware analysis, and compiler optimization.
Unlike source code, binary code has limited semantic information, which makes
it challenging for human comprehension. At the same time, compiling source to
binary code, or transpiling among different programming languages (PLs) can
provide a way to introduce external knowledge into binary comprehension. We
propose to develop Artificial Intelligence (AI) models that aid human
comprehension of binary code. Specifically, we propose to incorporate domain
knowledge from large corpora of source code (e.g., variable names, comments) to
build AI models that capture a generalizable representation of binary code.
Lastly, we will investigate metrics to assess the performance of models that
apply to binary code by using human studies of comprehension.
- Abstract(参考訳): バイナリコードを理解することは、リバースエンジニアリング、マルウェア分析、コンパイラ最適化に必須だが複雑なソフトウェアエンジニアリングタスクである。
ソースコードとは異なり、バイナリコードは意味情報に制限があるため、人間の理解には困難である。
同時に、ソースをバイナリコードにコンパイルしたり、異なるプログラミング言語(pls)間でトランスパイリングすることで、外部の知識をバイナリ理解に導入できる。
本稿では,バイナリコードの人間の理解を支援する人工知能(AI)モデルを提案する。
具体的には、ソースコードの大規模なコーパス(変数名やコメントなど)からドメイン知識を取り入れて、バイナリコードの一般化可能な表現をキャプチャするAIモデルを構築することを提案する。
最後に、人間による理解の研究を用いて、バイナリコードに適用されるモデルのパフォーマンスを評価するためのメトリクスを調査します。
関連論文リスト
- CodeGRAG: Extracting Composed Syntax Graphs for Retrieval Augmented Cross-Lingual Code Generation [60.799992690487336]
単一ラウンドのコード生成タスクにおいて,LLMの性能を向上させるための構文グラフ検索コード生成(CodeGRAG)を提案する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery [2.022692275087205]
クロスアーキテクチャのバイナリコード解析が新たな問題となっている。
ディープラーニングベースのバイナリ分析は、有望な成功を収めている。
低リソースのISAでは、十分な量のデータを見つけることは困難である。
論文 参考訳(メタデータ) (2024-04-29T18:09:28Z) - How Far Have We Gone in Stripped Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - CLAP: Learning Transferable Binary Code Representations with Natural
Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。
中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。
私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文 参考訳(メタデータ) (2024-02-26T13:49:52Z) - Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文 参考訳(メタデータ) (2023-12-30T17:48:37Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - Pre-Training Representations of Binary Code Using Contrastive Learning [14.1548548120994]
本稿では、表現学習中にソースコードとコメント情報をバイナリコードに組み込む、バイナリcOde分析のためのContrastive Learning Model(COMBO)を提案する。
COMBOは、ソースコード、バイナリコード、コメントをコントラストコード表現学習に組み込んだ最初の言語表現モデルである。
論文 参考訳(メタデータ) (2022-10-11T02:39:06Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。