論文の概要: RINSER: Accurate API Prediction Using Masked Language Models
- arxiv url: http://arxiv.org/abs/2509.04887v1
- Date: Fri, 05 Sep 2025 08:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.518551
- Title: RINSER: Accurate API Prediction Using Masked Language Models
- Title(参考訳): RINSER: マスケ言語モデルを用いた正確なAPI予測
- Authors: Muhammad Ejaz Ahmed, Christopher Cody, Muhammad Ikram, Sean Lamont, Alsharif Abuadbba, Seyit Camtepe, Surya Nepal, Muhammad Ali Kaafar,
- Abstract要約: RINSERはWindows API(WinAPI)関数名の自動予測フレームワークである。
RINSERはBERTのマスク付き言語モデル(LM)を使って、大規模にAPI名を予測する。
我々はRINSERを,11,098個のマルウェアバイナリから4,123個のWindows APIを含む4.7MのAPIコードプリントの大規模なデータセットで評価した。
- 参考スコア(独自算出の注目度): 21.081906052711172
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Malware authors commonly use obfuscation to hide API identities in binary files, making analysis difficult and time-consuming for a human expert to understand the behavior and intent of the program. Automatic API prediction tools are necessary to efficiently analyze unknown binaries, facilitating rapid malware triage while reducing the workload on human analysts. In this paper, we present RINSER (AccuRate API predictioN using maSked languagE model leaRning), an automated framework for predicting Windows API (WinAPI) function names. RINSER introduces the novel concept of API codeprints, a set of API-relevant assembly instructions, and supports x86 PE binaries. RINSER relies on BERT's masked language model (LM) to predict API names at scale, achieving 85.77% accuracy for normal binaries and 82.88% accuracy for stripped binaries. We evaluate RINSER on a large dataset of 4.7M API codeprints from 11,098 malware binaries, covering 4,123 unique Windows APIs, making it the largest publicly available dataset of this type. RINSER successfully discovered 65 obfuscated Windows APIs related to C2 communication, spying, and evasion in our dataset, which the commercial disassembler IDA failed to identify. Furthermore, we compared RINSER against three state-of-the-art approaches, showing over 20% higher prediction accuracy. We also demonstrated RINSER's resilience to adversarial attacks, including instruction randomization and code displacement, with a performance drop of no more than 3%.
- Abstract(参考訳): マルウェアの著者は、一般的に難読化を使ってバイナリファイルにAPIのアイデンティティを隠蔽し、解析を困難にし、プログラムの振る舞いや意図を理解するのに時間がかかる。
未知のバイナリを効率的に分析するためには、自動API予測ツールが必要である。
本稿では,Windows API (WinAPI) 関数名の自動予測フレームワークである RINSER (maSked languagE model leaRning を用いたAccuRate API predictioN) を提案する。
RINSERは、API関連アセンブリ命令のセットであるAPIコードプリントという新しい概念を導入し、x86 PEバイナリをサポートする。
RINSER は BERT のマスク付き言語モデル (LM) を用いて API 名を大規模に予測し、通常のバイナリでは85.77%、削除されたバイナリでは82.88% の精度を達成している。
我々はRINSERを11,098のマルウェアバイナリから4.7MのAPIコードプリントの大規模なデータセットで評価し、4,123のユニークなWindows APIをカバーし、このタイプの公開データセットとしては最大である。
RINSERは、私たちのデータセットでC2通信、スパイ、回避に関連する65の難読化Windows APIを発見しました。
さらに,RINSERと最先端の3つの手法を比較し,予測精度を20%以上向上させた。
また,命令ランダム化やコード変位を含む敵攻撃に対するRINSERのレジリエンスを3%未満の性能低下で実証した。
関連論文リスト
- Differentially Private Synthetic Data Release for Topics API Outputs [63.79476766779742]
当社では,Google ChromeのPrivacy Sandboxの一部として,1つのPrivacy-Preserving Ads API – Topics APIに注目しています。
実トピックAPIデータの再識別リスク特性と密に一致した、微分プライベートなデータセットを生成する。
これにより、外部の研究者がAPIを詳細に分析し、現実的な大規模データセットの事前および将来の作業の再現が可能になります。
論文 参考訳(メタデータ) (2025-06-30T13:46:57Z) - Malware Detection based on API calls [0.48866322421122627]
我々は、マルウェアの脅威を検出し緩和するための軽量でオーダー不変なアプローチを探究する。
我々は、良心または悪意のある活動を示すラベルを付した、300万以上のサンプルの公開データセットを公開します。
ランダムな森林のような機械学習アルゴリズムを活用し、API呼び出しシーケンスのパターンや異常を調べて行動分析を行う。
論文 参考訳(メタデータ) (2025-02-18T13:51:56Z) - Mitigating the Impact of Malware Evolution on API Sequence-based Windows Malware Detector [5.953199557879621]
APIシーケンスに基づく手法は、マルウェア予防において重要な役割を果たす。
進化したマルウェアサンプルは、しばしば、進化前のサンプルのAPIシーケンスを使用して、同様の悪意のある振る舞いを達成する。
本稿では,既存のAPIシーケンスに基づくマルウェア検出機能を拡張可能なフレーム(MME)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-03T04:21:24Z) - A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks [9.693391036125908]
本稿では,2つの主要部品からなる非教師なし数発の異常検出フレームワークを提案する。
まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングする。
次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
論文 参考訳(メタデータ) (2024-05-18T10:15:31Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Simple Transparent Adversarial Examples [65.65977217108659]
本研究は,ロバスト性を評価するための簡易な方法として,秘密の埋め込みと透明な敵の例を紹介した。
その結果、ハイリスクなアプリケーションにAPIが使用されるという深刻な脅威が生じる。
論文 参考訳(メタデータ) (2021-05-20T11:54:26Z) - Embedding Code Contexts for Cryptographic API Suggestion:New
Methodologies and Comparisons [9.011910726620536]
APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。
プログラム分析を使用して、APIの埋め込みと推奨をガイドします。
245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%に達した。
論文 参考訳(メタデータ) (2021-03-15T22:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。