論文の概要: WasmWalker: Path-based Code Representations for Improved WebAssembly Program Analysis
- arxiv url: http://arxiv.org/abs/2410.08517v1
- Date: Fri, 11 Oct 2024 04:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 23:24:45.018755
- Title: WasmWalker: Path-based Code Representations for Improved WebAssembly Program Analysis
- Title(参考訳): WasmWalker: WebAssemblyプログラム分析を改善するパスベースのコード表現
- Authors: Mohammad Robati Shirzad, Patrick Lam,
- Abstract要約: WebAssembly(Wasm)は、Webブラウザでほぼネイティブなコードの実行を可能にする低レベルのバイナリ言語である。
WebAssemblyバイナリのための2つの新しいコード表現を提案する。
これらの新しい表現は、固定サイズのコード埋め込みを生成するだけでなく、シーケンス・ツー・シーケンス・モデルに追加情報を提供するのに役立つ。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: WebAssembly, or Wasm, is a low-level binary language that enables execution of near-native-performance code in web browsers. Wasm has proven to be useful in applications including gaming, audio and video processing, and cloud computing, providing a high-performance, low-overhead alternative to JavaScript in web development. The fast and widespread adoption of WebAssembly by all major browsers has created an opportunity for analysis tools that support this new technology. Deep learning program analysis models can greatly benefit from the program structure information included in Abstract Syntax Tree (AST)-aware code representations. To obtain such code representations, we performed an empirical analysis on the AST paths in the WebAssembly Text format of a large dataset of WebAssembly binary files compiled from source packages in the Ubuntu 18.04 repositories. After refining the collected paths, we discovered that only 3,352 unique paths appeared across all of these binary files. With this insight, we propose two novel code representations for WebAssembly binaries. These novel representations serve not only to generate fixed-size code embeddings but also to supply additional information to sequence-to-sequence models. Ultimately, our approach helps program analysis models uncover new properties from Wasm binaries, expanding our understanding of their potential. We evaluated our new code representation on two applications: (i) method name prediction and (ii) recovering precise return types. Our results demonstrate the superiority of our novel technique over previous methods. More specifically, our new method resulted in 5.36% (11.31%) improvement in Top-1 (Top-5) accuracy in method name prediction and 8.02% (7.92%) improvement in recovering precise return types, compared to the previous state-of-the-art technique, SnowWhite.
- Abstract(参考訳): WebAssembly(Wasm)は、Webブラウザでほぼネイティブなコードの実行を可能にする低レベルのバイナリ言語である。
Wasmは、ゲーム、オーディオ、ビデオ処理、クラウドコンピューティングなどのアプリケーションで有用であることが証明され、Web開発におけるJavaScriptのハイパフォーマンスで低オーバーヘッドな代替手段を提供する。
すべての主要なブラウザがWebAssemblyを迅速かつ広く採用していることにより、この新しいテクノロジをサポートする分析ツールが誕生した。
ディープラーニングプログラム分析モデルは、AST(Abstract Syntax Tree)対応のコード表現に含まれるプログラム構造情報から大きな恩恵を受けることができる。
このようなコード表現を得るために、Ubuntu 18.04リポジトリのソースパッケージからコンパイルされたWebAssemblyバイナリファイルの大規模なデータセットのWebAssembly TextフォーマットでASTパスを実証分析した。
収集したパスを精査した結果、これらのバイナリファイルに3,352のユニークなパスしか現れていないことがわかった。
この知見により、WebAssemblyバイナリ用の2つの新しいコード表現を提案する。
これらの新しい表現は、固定サイズのコード埋め込みを生成するだけでなく、シーケンス・ツー・シーケンス・モデルに追加情報を提供するのに役立つ。
最終的に、我々のアプローチは、プログラム分析モデルがWasmバイナリから新しい性質を明らかにするのに役立つ。
2つのアプリケーションで新しいコード表現を評価しました。
(i)メソッド名予測及び方法
(ii)正確な戻り型を復元する。
本研究は,従来の手法よりも新しい手法が優れていることを示すものである。
具体的には,従来の最先端技術であるSnowWhiteと比較して,メソッド名予測におけるTop-1(Top-5)の精度が5.36%(11.31%)向上し,精度が8.02%(7.92%)向上した。
関連論文リスト
- SuperCoder2.0: Technical Report on Exploring the feasibility of LLMs as Autonomous Programmer [0.0]
SuperCoder2.0は、人工知能によるソフトウェア開発を強化するために設計された高度な自律システムである。
システムは、AIネイティブな開発アプローチとインテリジェントエージェントを組み合わせて、完全に自律的なコーディングを可能にする。
論文 参考訳(メタデータ) (2024-09-17T13:44:42Z) - Boosting Few-shot 3D Point Cloud Segmentation via Query-Guided
Enhancement [30.017448714419455]
本稿では,PC-FSSモデルの改良手法を提案する。
従来のPC-FSSでは,クエリサンプルの新規クラスを識別するために,サポートプロトタイプのカテゴリ情報を直接活用する手法とは異なり,モデル性能を著しく向上させる2つの重要な側面を同定する。
論文 参考訳(メタデータ) (2023-08-06T18:07:45Z) - Neural Transition-based Parsing of Library Deprecations [3.6382354548339295]
本稿では,オープンソースライブラリの非推奨API使用量を修正するためのコード更新の自動化に,そのリリースノートを分析して取り組む。
まず、WebクローラサービスがWebから非推奨のドキュメントを検索し、その後、特別に構築されたテキストがそれらのドキュメントを木構造表現に処理します。
提案手法の有効性を確認するため,7つの有名なPythonデータサイエンスライブラリから426のAPI非推奨を収集,ラベル付けし,そのアプローチが非自明なニューラルネットワーク翻訳ベースラインを決定的に上回ることを示した。
論文 参考訳(メタデータ) (2022-12-23T20:48:33Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。
近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。
本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:31:29Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - BATS: Binary ArchitecTure Search [56.87581500474093]
ニューラルアーキテクチャ検索をバイナリドメインに直接適用すると、非常に貧弱な結果が得られることを示す。
具体的には、新しいバイナリ指向検索空間を導入し、設計する。
また、CIFAR10、CIFAR100、ImageNetデータセット上に、バイナリニューラルネットワークのための新しい最先端技術も設定しました。
論文 参考訳(メタデータ) (2020-03-03T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。