論文の概要: A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings
- arxiv url: http://arxiv.org/abs/2304.06983v1
- Date: Fri, 14 Apr 2023 08:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:14:25.196999
- Title: A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings
- Title(参考訳): バイトシーケンスはイメージである:ビットシフトとn-Gram埋め込みを用いたファイルフラグメント分類のためのCNN
- Authors: Wenyang Liu, Yi Wang, Kejun Wu, Kim-Hui Yap and Lap-Pui Chau
- Abstract要約: メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
- 参考スコア(独自算出の注目度): 21.14735408046021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: File fragment classification (FFC) on small chunks of memory is essential in
memory forensics and Internet security. Existing methods mainly treat file
fragments as 1d byte signals and utilize the captured inter-byte features for
classification, while the bit information within bytes, i.e., intra-byte
information, is seldom considered. This is inherently inapt for classifying
variable-length coding files whose symbols are represented as the variable
number of bits. Conversely, we propose Byte2Image, a novel data augmentation
technique, to introduce the neglected intra-byte information into file
fragments and re-treat them as 2d gray-scale images, which allows us to capture
both inter-byte and intra-byte correlations simultaneously through powerful
convolutional neural networks (CNNs). Specifically, to convert file fragments
to 2d images, we employ a sliding byte window to expose the neglected
intra-byte information and stack their n-gram features row by row. We further
propose a byte sequence \& image fusion network as a classifier, which can
jointly model the raw 1d byte sequence and the converted 2d image to perform
FFC. Experiments on FFT-75 dataset validate that our proposed method can
achieve notable accuracy improvements over state-of-the-art methods in nearly
all scenarios. The code will be released at
https://github.com/wenyang001/Byte2Image.
- Abstract(参考訳): メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法は主にファイルフラグメントを1dバイト信号として扱い、キャプチャされたバイト間特徴を分類に利用するが、バイト内のビット情報(バイト内情報)はめったに考慮されない。
これは本質的に、シンボルがビットの可変数として表される可変長の符号化ファイルの分類に不適応である。
逆に,新しいデータ拡張手法であるByte2Imageを提案し,ファイルフラグメントに無視されたバイト内情報を2dグレースケールの画像として再処理することで,強力な畳み込みニューラルネットワーク(CNN)によって,バイト間相関とバイト内相関を同時に捉えることができる。
具体的には,ファイルフラグメントを2次元画像に変換するためにスライディングバイトウィンドウを用いて,無視したバイト内情報を公開し,n-gramの特徴を行単位で積み重ねる。
さらに、生の1dバイトシーケンスと変換された2dイメージを併用してFFCを行うことができる分類器としてバイトシーケンス \&画像融合ネットワークを提案する。
FFT-75データセットを用いた実験により,提案手法がほぼすべてのシナリオにおいて最先端手法に対して顕著な精度向上を達成できることを確認した。
コードはhttps://github.com/wenyang001/byte2imageでリリースされる。
関連論文リスト
- ByteNet: Rethinking Multimedia File Fragment Classification through Visual Perspectives [23.580848165023962]
マルチメディアファイルフラグメント分類(MFFC)は、システムメタデータなしでファイルフラグメントタイプを識別することを目的としている。
既存のMFFC法はフラグメントを1Dバイトシーケンスとして扱い、分類のために別々のバイト(バイト)の関係を強調する。
Byte2Imageは、以前見過ごされたバイト内情報をファイルのフラグメントに組み込んで、これらのフラグメントを2Dイメージとして再解釈する。
ByteNetは、浅いバイト分岐特徴抽出(BBFE)と深いイメージ分岐特徴抽出(IBFE)ネットワークを介して、生の1Dバイトシーケンスと変換された2Dイメージをフル活用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:28Z) - GlobalMamba: Global Image Serialization for Vision Mamba [73.50475621164037]
視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。
既存のほとんどの方法はパッチベースの画像トークン化を採用し、因果処理のためにそれらを1Dシーケンスにフラット化する。
本稿では,グローバルな画像シリアライズ手法を提案し,その画像を因果トークンのシーケンスに変換する。
論文 参考訳(メタデータ) (2024-10-14T09:19:05Z) - Designing Extremely Memory-Efficient CNNs for On-device Vision Tasks [2.9835839258066015]
デバイス上での視覚タスクにメモリ効率の良いCNN(畳み込みニューラルネットワーク)を導入する。
提案したネットワークは、競合するトップ1の精度(61.58%)を達成しつつ、非常に低いメモリ(63KB)でImageNetを分類する。
我々の知る限り、提案するネットワークのメモリ使用量は最先端のメモリ効率ネットワークよりもはるかに少ない。
論文 参考訳(メタデータ) (2024-08-07T10:04:04Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - Bytes Are All You Need: Transformers Operating Directly On File Bytes [55.81123238702553]
推論時にファイルの復号化を必要とせず、ファイルバイトの分類を行うことにより、モダリティ非依存表現学習について検討する。
私たちのモデルであるByteFormerは、ImageNet Top-1の分類精度を$5%改善します。
我々は、同じByteFormerアーキテクチャが、修正やモダリティ固有の前処理なしでオーディオ分類を行うことができることを示した。
論文 参考訳(メタデータ) (2023-05-31T23:18:21Z) - Transform and Bitstream Domain Image Classification [2.4366811507669124]
本稿では,概念実証法として2つの方法を提案する。
第1はJPEG画像変換領域(DCT変換データ)内を分類し、第2はJPEG圧縮されたバイナリビットストリームを直接分類する。
Caltech C101データベースを分類すると、Top-1の精度は約70%と60%に達した。
論文 参考訳(メタデータ) (2021-10-13T14:18:58Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Memory-guided Unsupervised Image-to-image Translation [54.1903150849536]
インスタンスレベルの画像から画像への変換のための教師なしのフレームワークを提案する。
我々のモデルは最近のインスタンスレベルの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-12T03:02:51Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。