論文の概要: Analyzing PDFs like Binaries: Adversarially Robust PDF Malware Analysis via Intermediate Representation and Language Model
- arxiv url: http://arxiv.org/abs/2506.17162v1
- Date: Fri, 20 Jun 2025 17:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.557774
- Title: Analyzing PDFs like Binaries: Adversarially Robust PDF Malware Analysis via Intermediate Representation and Language Model
- Title(参考訳): バイナリのようなPDFの分析:中間表現と言語モデルによる逆ロバストなPDFマルウェア解析
- Authors: Side Liu, Jiang Ming, Guodong Zhou, Xinyi Liu, Jianming Fu, Guojun Peng,
- Abstract要約: 悪意のあるPDFファイルは、永続的な脅威として現れ、Webベースの攻撃において一般的な攻撃ベクターとなっている。
PDFマルウェアは、しばしば敵の攻撃を受けやすく、その信頼性を損なう。
本稿では,PDF特徴抽出とPDFマルウェア検出のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 27.85605747467984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious PDF files have emerged as a persistent threat and become a popular attack vector in web-based attacks. While machine learning-based PDF malware classifiers have shown promise, these classifiers are often susceptible to adversarial attacks, undermining their reliability. To address this issue, recent studies have aimed to enhance the robustness of PDF classifiers. Despite these efforts, the feature engineering underlying these studies remains outdated. Consequently, even with the application of cutting-edge machine learning techniques, these approaches fail to fundamentally resolve the issue of feature instability. To tackle this, we propose a novel approach for PDF feature extraction and PDF malware detection. We introduce the PDFObj IR (PDF Object Intermediate Representation), an assembly-like language framework for PDF objects, from which we extract semantic features using a pretrained language model. Additionally, we construct an Object Reference Graph to capture structural features, drawing inspiration from program analysis. This dual approach enables us to analyze and detect PDF malware based on both semantic and structural features. Experimental results demonstrate that our proposed classifier achieves strong adversarial robustness while maintaining an exceptionally low false positive rate of only 0.07% on baseline dataset compared to state-of-the-art PDF malware classifiers.
- Abstract(参考訳): 悪意のあるPDFファイルは、永続的な脅威として現れ、Webベースの攻撃において一般的な攻撃ベクターとなっている。
機械学習ベースのPDFマルウェア分類器は将来性を示しているが、これらの分類器は敵攻撃の影響を受けやすいことが多く、信頼性を損なう。
この問題に対処するために、近年の研究はPDF分類器の堅牢性を高めることを目的としている。
これらの努力にもかかわらず、これらの研究の基礎となる機能工学は時代遅れである。
その結果、最先端の機械学習技術を適用しても、これらのアプローチは機能不安定の問題を根本的に解決することができない。
そこで本研究では,PDF特徴抽出とPDFマルウェア検出のための新しい手法を提案する。
我々はPDFオブジェクトのためのアセンブリライクな言語フレームワークであるPDFObj IR(PDF Object Intermediate Representation)を紹介し、事前訓練された言語モデルを用いて意味的特徴を抽出する。
さらに,プログラム解析からインスピレーションを得て,構造的特徴を捉えたオブジェクト参照グラフを構築した。
この2つのアプローチにより,意味的特徴と構造的特徴の両方に基づいてPDFマルウェアを分析し,検出することができる。
実験結果から,提案した分類器は,最先端のPDFマルウェア分類器と比較して,ベースラインデータセット上ではわずか0.07%の偽陽性率を保ちながら,強い対逆ロバスト性を実現していることが明らかとなった。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - MASKDROID: Robust Android Malware Detection with Masked Graph Representations [56.09270390096083]
マルウェアを識別する強力な識別能力を持つ強力な検出器MASKDROIDを提案する。
我々は、グラフニューラルネットワークベースのフレームワークにマスキング機構を導入し、MASKDROIDに入力グラフ全体の復元を強制する。
この戦略により、モデルは悪意のあるセマンティクスを理解し、より安定した表現を学習し、敵攻撃に対する堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-09-29T07:22:47Z) - A Lean Transformer Model for Dynamic Malware Analysis and Detection [0.0]
マルウェアは現代のコンピューティングの世界にとって急速に成長する脅威であり、既存の防衛線はこの問題に対処するのに十分な効率性を持っていない。
これまでの研究では、実行レポートから抽出したニューラルネットワークとAPI呼び出しシーケンスを活用することに成功した。
本稿では,悪意のあるファイルを検出するために,Transformersアーキテクチャに基づくエミュレーションオンリーモデルを設計する。
論文 参考訳(メタデータ) (2024-08-05T08:46:46Z) - A Feature Set of Small Size for the PDF Malware Detection [8.282177703075451]
PDFファイルのドメイン知識をあまり必要としない小さな機能セットを提案する。
ランダムフォレストモデルを用いた場合の最適精度は99.75%である。
その質素なサイズにもかかわらず、我々は、はるかに大きな機能セットを使用する最先端技術に匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-08-09T04:51:28Z) - DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified
Robustness [58.23214712926585]
我々は,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)を開発した。
具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。
私たちは、マルウェア実行ファイルの静的検出という領域で、認証された堅牢性を提供する最初の人です。
論文 参考訳(メタデータ) (2023-03-20T17:25:22Z) - HAPSSA: Holistic Approach to PDF Malware Detection Using Signal and
Statistical Analysis [16.224649756613655]
悪意あるPDF文書は、様々なセキュリティ組織に深刻な脅威をもたらす。
最先端のアプローチでは、機械学習(ML)を使用してPDFマルウェアを特徴付ける機能を学ぶ。
本稿では,PDF マルウェア検出のための簡易かつ効果的な総合的なアプローチを導出する。
論文 参考訳(メタデータ) (2021-11-08T18:32:47Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - PDF-Malware: An Overview on Threats, Detection and Evasion Attacks [0.966840768820136]
PDFが広く使われるようになったことで、良心的ユーザーの間では、本質的な安全性の虚偽の印象が生まれている。
本稿では,PDFマルウェア検出問題の概要について述べる。
論文 参考訳(メタデータ) (2021-07-27T15:15:20Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。