論文の概要: Multi-modal Learning for WebAssembly Reverse Engineering
- arxiv url: http://arxiv.org/abs/2404.03171v1
- Date: Thu, 4 Apr 2024 03:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 15:53:27.791629
- Title: Multi-modal Learning for WebAssembly Reverse Engineering
- Title(参考訳): WebAssemblyリバースエンジニアリングのためのマルチモーダル学習
- Authors: Hanxian Huang, Jishen Zhao,
- Abstract要約: We present WasmRev, a first multi-modal pre-trained language model for WebAssembly reverse engineering。
WasmRevは大規模マルチモーダルコーパス上で自己教師型学習を用いて事前訓練される。
WasmRevを3つの重要なリバースエンジニアリングタスク、タイプリカバリ、関数目的の識別、WebAssemblyの要約に微調整します。
- 参考スコア(独自算出の注目度): 7.18491643197374
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing adoption of WebAssembly (Wasm) for performance-critical and security-sensitive tasks drives the demand for WebAssembly program comprehension and reverse engineering. Recent studies have introduced machine learning (ML)-based WebAssembly reverse engineering tools. Yet, the generalization of task-specific ML solutions remains challenging, because their effectiveness hinges on the availability of an ample supply of high-quality task-specific labeled data. Moreover, previous works overlook the high-level semantics present in source code and its documentation. Acknowledging the abundance of available source code with documentation, which can be compiled into WebAssembly, we propose to learn representations of them concurrently and harness their mutual relationships for effective WebAssembly reverse engineering. In this paper, we present WasmRev, the first multi-modal pre-trained language model for WebAssembly reverse engineering. WasmRev is pre-trained using self-supervised learning on a large-scale multi-modal corpus encompassing source code, code documentation and the compiled WebAssembly, without requiring labeled data. WasmRev incorporates three tailored multi-modal pre-training tasks to capture various characteristics of WebAssembly and cross-modal relationships. WasmRev is only trained once to produce general-purpose representations that can broadly support WebAssembly reverse engineering tasks through few-shot fine-tuning with much less labeled data, improving data efficiency. We fine-tune WasmRev onto three important reverse engineering tasks: type recovery, function purpose identification and WebAssembly summarization. Our results show that WasmRev pre-trained on the corpus of multi-modal samples establishes a robust foundation for these tasks, achieving high task accuracy and outperforming the state-of-the-art ML methods for WebAssembly reverse engineering.
- Abstract(参考訳): パフォーマンスクリティカルでセキュリティに敏感なタスクに対するWebAssembly(Wasm)の採用の増加により、WebAssemblyプログラムの理解とリバースエンジニアリングの需要が高まっている。
最近の研究は、機械学習(ML)ベースのWebAssemblyリバースエンジニアリングツールを導入している。
しかし、タスク固有のMLソリューションの一般化は、その有効性は、高品質なタスク固有のラベル付きデータの十分な供給にかかっているため、依然として困難である。
さらに、以前の研究は、ソースコードとそのドキュメントにあるハイレベルなセマンティクスを見落としていた。
WebAssemblyにコンパイル可能なドキュメントで利用可能なソースコードが豊富であることを認識し、その表現を同時に学習し、WebAssemblyのリバースエンジニアリングに相互関係を活用することを提案する。
本稿では、WebAssemblyリバースエンジニアリングのための最初のマルチモーダル事前訓練言語モデルであるWasmRevを紹介する。
WasmRevは、ラベル付きデータを必要とせず、ソースコード、コードドキュメンテーション、コンパイルされたWebAssemblyを含む大規模なマルチモーダルコーパスで、自己教師付き学習を使用して事前トレーニングされている。
WasmRevには3つの調整されたマルチモーダル事前トレーニングタスクが組み込まれている。
WasmRevは、ラベル付きデータの少ない数ショットの微調整によってWebAssemblyのリバースエンジニアリングタスクを広くサポートする汎用表現を生成するために、一度だけ訓練されている。
WasmRevを3つの重要なリバースエンジニアリングタスク、タイプリカバリ、関数目的の識別、WebAssemblyの要約に微調整します。
以上の結果から,WasmRevがマルチモーダルサンプルのコーパスで事前訓練されたことにより,タスクの精度が向上し,WebAssemblyのリバースエンジニアリングにおける最先端のMLメソッドよりも優れていることが示唆された。
関連論文リスト
- Generic Multi-modal Representation Learning for Network Traffic Analysis [6.372999570085887]
ネットワークトラフィック分析は、ネットワーク管理、トラブルシューティング、セキュリティに不可欠である。
異なるユースケースを解決できる柔軟なマルチモーダルオートエンコーダ(MAE)パイプラインを提案する。
我々は、MAEアーキテクチャは汎用的であり、複数のシナリオで有用な表現の学習に使用できると論じる。
論文 参考訳(メタデータ) (2024-05-04T12:24:29Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [94.04010017961917]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文 参考訳(メタデータ) (2023-10-16T09:30:45Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Efficient Retrieval Optimized Multi-task Learning [16.189136169520424]
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。
我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供する。
当社のフレームワークでは,近年のQAメソッドよりも同等あるいは優れたパフォーマンスを実現していますが,パラメータの数を大幅に削減しています。
論文 参考訳(メタデータ) (2021-04-20T17:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。