論文の概要: Multi-modal Learning for WebAssembly Reverse Engineering
- arxiv url: http://arxiv.org/abs/2404.03171v1
- Date: Thu, 4 Apr 2024 03:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 15:53:27.791629
- Title: Multi-modal Learning for WebAssembly Reverse Engineering
- Title(参考訳): WebAssemblyリバースエンジニアリングのためのマルチモーダル学習
- Authors: Hanxian Huang, Jishen Zhao,
- Abstract要約: We present WasmRev, a first multi-modal pre-trained language model for WebAssembly reverse engineering。
WasmRevは大規模マルチモーダルコーパス上で自己教師型学習を用いて事前訓練される。
WasmRevを3つの重要なリバースエンジニアリングタスク、タイプリカバリ、関数目的の識別、WebAssemblyの要約に微調整します。
- 参考スコア(独自算出の注目度): 7.18491643197374
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing adoption of WebAssembly (Wasm) for performance-critical and security-sensitive tasks drives the demand for WebAssembly program comprehension and reverse engineering. Recent studies have introduced machine learning (ML)-based WebAssembly reverse engineering tools. Yet, the generalization of task-specific ML solutions remains challenging, because their effectiveness hinges on the availability of an ample supply of high-quality task-specific labeled data. Moreover, previous works overlook the high-level semantics present in source code and its documentation. Acknowledging the abundance of available source code with documentation, which can be compiled into WebAssembly, we propose to learn representations of them concurrently and harness their mutual relationships for effective WebAssembly reverse engineering. In this paper, we present WasmRev, the first multi-modal pre-trained language model for WebAssembly reverse engineering. WasmRev is pre-trained using self-supervised learning on a large-scale multi-modal corpus encompassing source code, code documentation and the compiled WebAssembly, without requiring labeled data. WasmRev incorporates three tailored multi-modal pre-training tasks to capture various characteristics of WebAssembly and cross-modal relationships. WasmRev is only trained once to produce general-purpose representations that can broadly support WebAssembly reverse engineering tasks through few-shot fine-tuning with much less labeled data, improving data efficiency. We fine-tune WasmRev onto three important reverse engineering tasks: type recovery, function purpose identification and WebAssembly summarization. Our results show that WasmRev pre-trained on the corpus of multi-modal samples establishes a robust foundation for these tasks, achieving high task accuracy and outperforming the state-of-the-art ML methods for WebAssembly reverse engineering.
- Abstract(参考訳): パフォーマンスクリティカルでセキュリティに敏感なタスクに対するWebAssembly(Wasm)の採用の増加により、WebAssemblyプログラムの理解とリバースエンジニアリングの需要が高まっている。
最近の研究は、機械学習(ML)ベースのWebAssemblyリバースエンジニアリングツールを導入している。
しかし、タスク固有のMLソリューションの一般化は、その有効性は、高品質なタスク固有のラベル付きデータの十分な供給にかかっているため、依然として困難である。
さらに、以前の研究は、ソースコードとそのドキュメントにあるハイレベルなセマンティクスを見落としていた。
WebAssemblyにコンパイル可能なドキュメントで利用可能なソースコードが豊富であることを認識し、その表現を同時に学習し、WebAssemblyのリバースエンジニアリングに相互関係を活用することを提案する。
本稿では、WebAssemblyリバースエンジニアリングのための最初のマルチモーダル事前訓練言語モデルであるWasmRevを紹介する。
WasmRevは、ラベル付きデータを必要とせず、ソースコード、コードドキュメンテーション、コンパイルされたWebAssemblyを含む大規模なマルチモーダルコーパスで、自己教師付き学習を使用して事前トレーニングされている。
WasmRevには3つの調整されたマルチモーダル事前トレーニングタスクが組み込まれている。
WasmRevは、ラベル付きデータの少ない数ショットの微調整によってWebAssemblyのリバースエンジニアリングタスクを広くサポートする汎用表現を生成するために、一度だけ訓練されている。
WasmRevを3つの重要なリバースエンジニアリングタスク、タイプリカバリ、関数目的の識別、WebAssemblyの要約に微調整します。
以上の結果から,WasmRevがマルチモーダルサンプルのコーパスで事前訓練されたことにより,タスクの精度が向上し,WebAssemblyのリバースエンジニアリングにおける最先端のMLメソッドよりも優れていることが示唆された。
関連論文リスト
- Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - StackSight: Unveiling WebAssembly through Large Language Models and Neurosymbolic Chain-of-Thought Decompilation [2.1094456929188676]
StackSightは静的解析アルゴリズムを通じて仮想スタックの変更を視覚化し、追跡し、チェーン・オブ・シークレット・プロンプトを適用する。
評価結果は、StackSightがWebAssemblyの逆コンパイルを大幅に改善していることを示している。
またユーザ調査では、StackSightが生成したコードスニペットの勝利率が大幅に高く、コードのセマンティクスをよりよく把握できることを示した。
論文 参考訳(メタデータ) (2024-06-07T01:08:17Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - MLLMReID: Multimodal Large Language Model-based Person Re-identification [14.68436005777866]
MLLM(Multimodal large language model)は多くのタスクにおいて満足な結果を得た。
本稿では,ReIDの課題に適合させる方法について検討する。
論文 参考訳(メタデータ) (2024-01-24T03:07:26Z) - RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文 参考訳(メタデータ) (2023-10-16T09:30:45Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。