論文の概要: Toward the Detection of Polyglot Files
- arxiv url: http://arxiv.org/abs/2203.07561v1
- Date: Mon, 14 Mar 2022 23:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 16:22:08.818306
- Title: Toward the Detection of Polyglot Files
- Title(参考訳): ポリグロットファイルの検出に向けて
- Authors: Luke Koch, Sean Oesch, Mary Adkisson, Sam Erwin, Brian Weber, Amul
Chaulagain
- Abstract要約: 複数のファイルフォーマットで有効なファイルを作成することで、標準化されたファイルフォーマットを悪用することができる。
結果として生成されるポリグロット(多言語)ファイルは、ファイルフォーマットの識別を混乱させ、ファイルの要素が解析を回避できる。
これは、特徴抽出のためにファイルフォーマットの識別に依存するマルウェア検出システムにおいて特に問題となる。
- 参考スコア(独自算出の注目度): 2.7402733069180996
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Standardized file formats play a key role in the development and use of
computer software. However, it is possible to abuse standardized file formats
by creating a file that is valid in multiple file formats. The resulting
polyglot (many languages) file can confound file format identification,
allowing elements of the file to evade analysis.This is especially problematic
for malware detection systems that rely on file format identification for
feature extraction. File format identification processes that depend on file
signatures can be easily evaded thanks to flexibility in the format
specifications of certain file formats. Although work has been done to identify
file formats using more comprehensive methods than file signatures, accurate
identification of polyglot files remains an open problem. Since malware
detection systems routinely perform file format-specific feature extraction,
polyglot files need to be filtered out prior to ingestion by these systems.
Otherwise, malicious content could pass through undetected. To address the
problem of polyglot detection we assembled a data set using the mitra tool. We
then evaluated the performance of the most commonly used file identification
tool, file. Finally, we demonstrated the accuracy, precision, recall and F1
score of a range of machine and deep learning models. Malconv2 and Catboost
demonstrated the highest recall on our data set with 95.16% and 95.34%,
respectively. These models can be incorporated into a malware detector's file
processing pipeline to filter out potentially malicious polyglots before file
format-dependent feature extraction takes place.
- Abstract(参考訳): 標準化されたファイルフォーマットは、コンピュータソフトウェアの開発と利用において重要な役割を果たす。
しかし、複数のファイルフォーマットで有効なファイルを作成することで、標準化されたファイルフォーマットを悪用することができる。
結果として生じる多言語(多くの言語)ファイルは、ファイルフォーマットの識別を結合することができ、ファイルの要素が解析を回避できる。
ファイルシグネチャに依存するファイルフォーマット識別プロセスは、特定のファイルフォーマットのフォーマット仕様の柔軟性により、容易に回避できる。
ファイルシグネチャよりも包括的な方法でファイル形式を特定する作業は行われているが、ポリグロットファイルの正確な識別は未解決のままである。
マルウェア検出システムはファイル形式固有の特徴抽出を日常的に行うため、これらのシステムによる取り込み前にポリグロットファイルをフィルタリングする必要がある。
そうでなければ、悪意のあるコンテンツは検出されない。
ポリグロット検出の問題を解決するために,mitraツールを用いてデータセットを組み立てた。
そして、最もよく使われるファイル識別ツールであるfileの性能を評価した。
最後に,機械学習モデルとディープラーニングモデルの精度,精度,リコール,F1スコアを実証した。
malconv2とcatboostはそれぞれ95.16%と95.34%という高いリコールを示しました。
これらのモデルは、ファイルフォーマットに依存した機能抽出が行われる前に、悪意のあるポリグロットをフィルタリングするために、マルウェア検出のファイル処理パイプラインに組み込むことができる。
関連論文リスト
- On the Abuse and Detection of Polyglot Files [3.6022558854356603]
ポリグロットファイルは、フォーマット固有の検出/署名にファイルをルーティングするマルウェア検出システムに問題を引き起こす。
既存のファイルフォーマットと組み込みファイル検出ツールは、野生で使われているポリグロットファイルを確実に検出できない。
論文 参考訳(メタデータ) (2024-07-01T17:59:54Z) - Compressed-Language Models for Understanding Compressed File Formats: a JPEG Exploration [82.88166538896331]
我々は、圧縮における鍵概念の共通性と代表性を考慮して、JPEGフォーマットを代表的CFFとして重視する。
我々は、CLMがJPEGフォーマットを理解するかどうかを、固有のファイルプロパティの認識、異常のあるファイルの扱い、新しいファイルの生成という、3つの軸に沿って実行する能力を調べて検証する。
結果から,CFFが生成するファイルのバイトストリームを直接操作する場合,圧縮データのセマンティクスをCLMで理解できることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:09:23Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Adversarial Networks and Machine Learning for File Classification [0.0]
検査中のファイルの種類を正しく特定することは、法医学的な調査の重要な部分である。
本稿では、逆学習された機械学習ニューラルネットワークを用いてファイルの真の型を決定することを提案する。
半教師付き生成敵ネットワーク(SGAN)は,11種類のファイルの分類において97.6%の精度を達成した。
論文 参考訳(メタデータ) (2023-01-27T19:40:03Z) - Watermarking Pre-trained Language Models with Backdooring [118.14981787949199]
PLMは、所有者が定義した特定の入力によって引き起こされるバックドアを埋め込むことにより、マルチタスク学習フレームワークで透かしが可能であることを示す。
また,いくつかの稀な単語をトリガーとして用いることに加えて,一般的な単語の組み合わせをバックドアトリガーとして用いることで,検出が容易でないことを示す。
論文 参考訳(メタデータ) (2022-10-14T05:42:39Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - FormatFuzzer: Effective Fuzzing of Binary File Formats [11.201540907330436]
FormatFuzzerはフォーマット固有のファズーのジェネレータである。
フォーマット固有のファジターは、ブラックボックス設定でスタンドアロンのプロデューサまたはミューテータとして使用することができる。
論文 参考訳(メタデータ) (2021-09-23T10:28:35Z) - Efficient video integrity analysis through container characterization [77.45740041478743]
本稿では,ビデオ操作に使用するソフトウェアをコンテナベースで識別する手法を提案する。
提案手法は効率的かつ効果的であり,その決定の簡易な説明も可能である。
プリストインを改ざんされたビデオと区別し、編集ソフトを分類することで97.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-01-26T14:13:39Z) - Content-Based Textual File Type Detection at Scale [0.0]
プログラミング言語の検出は、大規模なソースコードの分析において一般的なニーズです。
我々は,テキストファイルの内容のみに基づいて,ソフトウェアコードベースでよく見られるファイルの種類を正確に検出する問題を考える。
論文 参考訳(メタデータ) (2021-01-21T09:08:42Z) - Short Text Classification Approach to Identify Child Sexual Exploitation
Material [4.415977307120616]
本稿では,児童性行為資料(CSEM)ファイルを識別するために,短いテキスト分類に基づく2つのアプローチを提案する。
提案されたソリューションは、すべてのファイルのビジュアルコンテンツに取り組むことなくCSEMを識別するための法執行機関をサポートするための法医学ツールやサービスに統合することができる。
論文 参考訳(メタデータ) (2020-10-29T09:37:16Z) - Detecting malicious PDF using CNN [46.86114958340962]
悪意のあるPDFファイルは、コンピュータセキュリティに対する最大の脅威の1つだ。
本稿では,ファイルのバイトレベルにおける畳み込みニューラルネットワーク(CNN)のアンサンブルを用いた新しいアルゴリズムを提案する。
オンラインでダウンロード可能な90000ファイルのデータセットを用いて,本手法はPDFマルウェアの高検出率(94%)を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-24T18:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。