論文の概要: PDFInspect: A Unified Feature Extraction Framework for Malicious Document Detection
- arxiv url: http://arxiv.org/abs/2601.12866v1
- Date: Mon, 19 Jan 2026 09:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.830918
- Title: PDFInspect: A Unified Feature Extraction Framework for Malicious Document Detection
- Title(参考訳): PDFインスペクション: 悪意のある文書検出のための統一された特徴抽出フレームワーク
- Authors: Sharmila S P,
- Abstract要約: この研究は、グラフベース、構造化、メタデータ駆動分析を統合し、PDF文書ごとにリッチな特徴表現を生成する統一的なフレームワークを提案する。
提案されたアプローチはスケーラブルで、170で、現実世界のPDF脅威インテリジェンスをサポートするように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing prevalence of malicious Portable Document Format (PDF) files necessitates robust and comprehensive feature extraction techniques for effective detection and analysis. This work presents a unified framework that integrates graph-based, structural, and metadata-driven analysis to generate a rich feature representation for each PDF document. The system extracts text from PDF pages and constructs undirected graphs based on pairwise word relationships, enabling the computation of graph-theoretic features such as node count, edge density, and clustering coefficient. Simultaneously, the framework parses embedded metadata to quantify character distributions, entropy patterns, and inconsistencies across fields such as author, title, and producer. Temporal features are derived from creation and modification timestamps to capture behavioral signatures, while structural elements including, object streams, fonts, and embedded images, are quantified to reflect document complexity. Boolean flags for potentially malicious PDF constructs (e.g., JavaScript, launch actions) are also extracted. Together, these features form a high-dimensional vector representation (170 dimensions) that is well-suited for downstream tasks such as malware classification, anomaly detection, and forensic analysis. The proposed approach is scalable, extensible, and designed to support real-world PDF threat intelligence workflows.6
- Abstract(参考訳): 悪意のあるポータブルドキュメントフォーマット(PDF)ファイルの普及は、効果的な検出と解析のために堅牢で包括的な特徴抽出技術を必要とする。
この研究は、グラフベース、構造化、メタデータ駆動分析を統合し、PDF文書ごとにリッチな特徴表現を生成する統一的なフレームワークを提案する。
本システムはPDFページからテキストを抽出し,一対の単語関係に基づく非方向グラフを構築し,ノード数,エッジ密度,クラスタリング係数などのグラフ理論的特徴の計算を可能にする。
同時に、このフレームワークは埋め込みメタデータを解析し、文字分布、エントロピーパターン、および著者、タイトル、プロデューサーなどのフィールド間の不整合を定量化する。
時間的特徴は、振る舞いのシグネチャをキャプチャするための作成と修正のタイムスタンプに由来するが、オブジェクトストリーム、フォント、埋め込みイメージなどの構造要素は、ドキュメントの複雑さを反映するために定量化されている。
潜在的に悪意のあるPDFコンストラクト(JavaScript、起動アクションなど)に対するブールフラグも抽出される。
これらの特徴が組み合わさって高次元ベクトル表現(170次元)を形成し、マルウェア分類、異常検出、法医学解析などの下流処理に適している。
提案されたアプローチはスケーラブルで拡張可能で、現実世界のPDF脅威インテリジェンスワークフローをサポートするように設計されている。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Analyzing PDFs like Binaries: Adversarially Robust PDF Malware Analysis via Intermediate Representation and Language Model [27.85605747467984]
悪意のあるPDFファイルは、永続的な脅威として現れ、Webベースの攻撃において一般的な攻撃ベクターとなっている。
PDFマルウェアは、しばしば敵の攻撃を受けやすく、その信頼性を損なう。
本稿では,PDF特徴抽出とPDFマルウェア検出のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:08:08Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - CREPE: Coordinate-Aware End-to-End Document Parser [13.530212337717515]
視覚文書理解のためのOCRフリーシーケンス生成モデル(VDU)を定式化する。
本モデルは,文書画像からテキストを解析するだけでなく,マルチヘッドアーキテクチャに基づくテキストの空間座標も抽出する。
コーディネート・アウェア・エンド・ツー・エンドドキュメンテーション(Coordinate-aware End-to-end Document)と呼ばれる。
CREPEでは,OCRテキスト用の特別なトークンを導入することで,これらの機能を独自に統合する。
論文 参考訳(メタデータ) (2024-05-01T00:30:13Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。