論文の概要: On the Abuse and Detection of Polyglot Files
- arxiv url: http://arxiv.org/abs/2407.01529v1
- Date: Mon, 1 Jul 2024 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:11:58.687177
- Title: On the Abuse and Detection of Polyglot Files
- Title(参考訳): ポリグロットファイルの誤用と検出について
- Authors: Luke Koch, Sean Oesch, Amul Chaulagain, Jared Dixon, Matthew Dixon, Mike Huettal, Amir Sadovnik, Cory Watson, Brian Weber, Jacob Hartman, Richard Patulski,
- Abstract要約: ポリグロットファイルは、フォーマット固有の検出/署名にファイルをルーティングするマルウェア検出システムに問題を引き起こす。
既存のファイルフォーマットと組み込みファイル検出ツールは、野生で使われているポリグロットファイルを確実に検出できない。
- 参考スコア(独自算出の注目度): 3.6022558854356603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A polyglot is a file that is valid in two or more formats. Polyglot files pose a problem for malware detection systems that route files to format-specific detectors/signatures, as well as file upload and sanitization tools. In this work we found that existing file-format and embedded-file detection tools, even those developed specifically for polyglot files, fail to reliably detect polyglot files used in the wild, leaving organizations vulnerable to attack. To address this issue, we studied the use of polyglot files by malicious actors in the wild, finding $30$ polyglot samples and $15$ attack chains that leveraged polyglot files. In this report, we highlight two well-known APTs whose cyber attack chains relied on polyglot files to bypass detection mechanisms. Using knowledge from our survey of polyglot usage in the wild -- the first of its kind -- we created a novel data set based on adversary techniques. We then trained a machine learning detection solution, PolyConv, using this data set. PolyConv achieves a precision-recall area-under-curve score of $0.999$ with an F1 score of $99.20$% for polyglot detection and $99.47$% for file-format identification, significantly outperforming all other tools tested. We developed a content disarmament and reconstruction tool, ImSan, that successfully sanitized $100$% of the tested image-based polyglots, which were the most common type found via the survey. Our work provides concrete tools and suggestions to enable defenders to better defend themselves against polyglot files, as well as directions for future work to create more robust file specifications and methods of disarmament.
- Abstract(参考訳): ポリグロット(polyglot)は、2つ以上のフォーマットで有効なファイルである。
ポリグロットファイルは、ファイルのアップロードや衛生ツールと同様に、フォーマット固有の検出/署名にファイルをルーティングするマルウェア検出システムに問題を引き起こす。
この研究で、既存のファイルフォーマットと組み込みファイル検出ツール、特にポリグロットファイル用に開発されたものでさえ、野生で使われているポリグロットファイルを確実に検出することができず、攻撃に脆弱な組織を残していることがわかった。
この問題に対処するため、悪意のあるアクターによるポリグロットファイルの使用について調査を行い、ポリグロットのサンプル30ドルとポリグロットファイルを利用する攻撃チェーン15ドルを調査した。
本稿では,サイバー攻撃チェーンが多言語ファイルに依存し,バイパス検出機構に頼っている2つの有名なAPTについて紹介する。
野生での多言語利用に関する調査から得た知識(この種の最初のもの)を使って、敵のテクニックに基づいた新しいデータセットを作成しました。
次に、このデータセットを使用して、マシンラーニング検出ソリューションであるPolyConvをトレーニングしました。
PolyConvは、F1スコアが99.20$%、ファイルフォーマットの識別が99.47$%の精度のリコールエリアアンダーカーブスコアが0.999$であり、テスト対象の他のツールよりも大幅に優れている。
われわれはImSanという,検査対象のポリグロットを100ドル(約1万1000円)で消毒するツールを開発した。
我々の研究は、ディフェンダーがポリグロットファイルに対してより防御しやすくするための具体的ツールと提案を提供するとともに、より堅牢なファイル仕様と非武装化方法を作成するための今後の取り組みの方向性を提供する。
関連論文リスト
- SCORE: Syntactic Code Representations for Static Script Malware Detection [9.502104012686491]
サーバーサイドスクリプトアタックはデータを盗み、資格を侵害し、操作を妨害する。
本稿では,静的スクリプトマルウェア検出のための特徴抽出と深層学習(DL)に基づくアプローチを提案する。
本手法は, 主要なシグネチャベースの抗ウイルスソリューションよりも最大81%高い陽性率(TPR)を達成する。
論文 参考訳(メタデータ) (2024-11-12T20:58:04Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - GlotScript: A Resource and Tool for Low Resource Writing System Identification [53.56700754408902]
GlotScriptは、低リソースの書き込みシステム識別のためのオープンリソースである。
GlotScript-Rは7000以上の言語に対して証明済みの書記システムを提供している。
GlotScript-Tは161のUnicode 15.0スクリプトをカバーする記述システム識別ツールである。
論文 参考訳(メタデータ) (2023-09-23T09:35:55Z) - Robust Multi-bit Natural Language Watermarking through Invariant
Features [28.4935678626116]
元々の自然言語の内容は違法な海賊行為や潜在的な誤用の影響を受けやすい。
海賊行為を効果的に防ぎ、著作権を保護するためには、マルチビットの透かしフレームワークが適切な情報を埋め込む必要がある。
本研究では,画像透かしからよく知られた提案に従うことにより,ペイロードとロバスト性を両立させる方法について検討する。
論文 参考訳(メタデータ) (2023-05-03T05:37:30Z) - Toward the Detection of Polyglot Files [2.7402733069180996]
複数のファイルフォーマットで有効なファイルを作成することで、標準化されたファイルフォーマットを悪用することができる。
結果として生成されるポリグロット(多言語)ファイルは、ファイルフォーマットの識別を混乱させ、ファイルの要素が解析を回避できる。
これは、特徴抽出のためにファイルフォーマットの識別に依存するマルウェア検出システムにおいて特に問題となる。
論文 参考訳(メタデータ) (2022-03-14T23:48:22Z) - Automatic Polyp Segmentation via Multi-scale Subtraction Network [100.94922587360871]
臨床的には、正確なポリープセグメンテーションは大腸癌の早期発見に重要な情報を提供する。
既存のほとんどの手法はU字型構造に基づいており、デコーダで段階的に異なるレベルの特徴を融合させるために要素ワイド付加または結合を用いる。
大腸内視鏡画像からポリプを抽出するマルチスケールサブトラクションネットワーク(MSNet)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:54:07Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z) - Content-Based Textual File Type Detection at Scale [0.0]
プログラミング言語の検出は、大規模なソースコードの分析において一般的なニーズです。
我々は,テキストファイルの内容のみに基づいて,ソフトウェアコードベースでよく見られるファイルの種類を正確に検出する問題を考える。
論文 参考訳(メタデータ) (2021-01-21T09:08:42Z) - Beyond the Hype: A Real-World Evaluation of the Impact and Cost of
Machine Learning-Based Malware Detection [5.876081415416375]
市販のマルウェア検知器の科学的検査が不足している。
市場をリードする4つのマルウェア検出ツールの科学的評価を行う。
以上の結果から,4つのツールがほぼ完璧な精度で再現できることが示唆された。
論文 参考訳(メタデータ) (2020-12-16T19:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。