論文の概要: Cross-Language Binary-Source Code Matching with Intermediate
Representations
- arxiv url: http://arxiv.org/abs/2201.07420v1
- Date: Wed, 19 Jan 2022 05:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:39:58.868062
- Title: Cross-Language Binary-Source Code Matching with Intermediate
Representations
- Title(参考訳): 中間表現を用いたクロスランゲージバイナリソース符号マッチング
- Authors: Yi Gui, Yao Wan, Hongyu Zhang, Huifang Huang, Yulei Sui, Guandong Xu,
Zhiyuan Shao, Hai Jin
- Abstract要約: 本稿では,言語間のバイナリソースコードマッチングの問題を定式化し,新しい問題のための新しいデータセットを開発する。
本稿では,バイナリとソースコードの中間表現を学習し,トランスフォーマーに基づくニューラルネットワークであるXLIRを提案する。
中間表現を持つXLIRは,2つのタスクにおいて,他の最先端モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 27.843666274502198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary-source code matching plays an important role in many security and
software engineering related tasks such as malware detection, reverse
engineering and vulnerability assessment. Currently, several approaches have
been proposed for binary-source code matching by jointly learning the
embeddings of binary code and source code in a common vector space. Despite
much effort, existing approaches target on matching the binary code and source
code written in a single programming language. However, in practice, software
applications are often written in different programming languages to cater for
different requirements and computing platforms. Matching binary and source code
across programming languages introduces additional challenges when maintaining
multi-language and multi-platform applications. To this end, this paper
formulates the problem of cross-language binary-source code matching, and
develops a new dataset for this new problem. We present a novel approach XLIR,
which is a Transformer-based neural network by learning the intermediate
representations for both binary and source code. To validate the effectiveness
of XLIR, comprehensive experiments are conducted on two tasks of cross-language
binary-source code matching, and cross-language source-source code matching, on
top of our curated dataset. Experimental results and analysis show that our
proposed XLIR with intermediate representations significantly outperforms other
state-of-the-art models in both of the two tasks.
- Abstract(参考訳): バイナリソースコードマッチングは,マルウェア検出やリバースエンジニアリング,脆弱性評価など,セキュリティやソフトウェアエンジニアリングに関連する多くのタスクにおいて重要な役割を果たす。
現在、バイナリコードとソースコードの共通ベクトル空間への埋め込みを共同で学習することで、バイナリソースコードマッチングにいくつかのアプローチが提案されている。
多くの努力にもかかわらず、既存のアプローチは単一のプログラミング言語で書かれたバイナリコードとソースコードのマッチングを目標としている。
しかし実際には、ソフトウェアアプリケーションは様々な要件やコンピューティングプラットフォームに対応するために、しばしば異なるプログラミング言語で書かれています。
プログラミング言語にまたがるバイナリとソースコードのマッチングは、マルチ言語とマルチプラットフォームアプリケーションのメンテナンスにおいて、さらなる課題をもたらす。
そこで本稿では,言語間バイナリソースコードマッチングの問題を定式化し,新しい問題のための新しいデータセットを開発する。
本稿では,バイナリとソースコードの中間表現を学習し,トランスフォーマーに基づくニューラルネットワークであるXLIRを提案する。
XLIRの有効性を検証するために、我々の収集したデータセットの上に、クロス言語バイナリソースコードマッチングとクロス言語ソースコードマッチングの2つのタスクに関する総合的な実験を行った。
実験結果と解析結果から,中間表現を持つXLIRは両タスクにおいて他の最先端モデルよりも優れていた。
関連論文リスト
- Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - DA-Net: A Disentangled and Adaptive Network for Multi-Source
Cross-Lingual Transfer Learning [11.78085199896157]
マルチソースの言語間変換学習は、複数のラベル付けされたソース言語から、言語シフトの下でラベル付けされていないターゲット言語へのタスク知識の転送を扱う。
本稿では,これらの課題に対処する分散適応ネットワーク(DA-Net)を提案する。
論文 参考訳(メタデータ) (2024-03-07T02:30:46Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Pre-Training Representations of Binary Code Using Contrastive Learning [13.570375923483452]
本稿では、表現学習中にソースコードとコメント情報をバイナリコードに組み込む、バイナリcOde分析のためのContrastive Learning Model(COMBO)を提案する。
COMBOは、ソースコード、バイナリコード、コメントをコントラストコード表現学習に組み込んだ最初の言語表現モデルである。
論文 参考訳(メタデータ) (2022-10-11T02:39:06Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。