論文の概要: A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings
- arxiv url: http://arxiv.org/abs/2304.06983v1
- Date: Fri, 14 Apr 2023 08:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:14:25.196999
- Title: A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings
- Title(参考訳): バイトシーケンスはイメージである:ビットシフトとn-Gram埋め込みを用いたファイルフラグメント分類のためのCNN
- Authors: Wenyang Liu, Yi Wang, Kejun Wu, Kim-Hui Yap and Lap-Pui Chau
- Abstract要約: メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
- 参考スコア(独自算出の注目度): 21.14735408046021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: File fragment classification (FFC) on small chunks of memory is essential in
memory forensics and Internet security. Existing methods mainly treat file
fragments as 1d byte signals and utilize the captured inter-byte features for
classification, while the bit information within bytes, i.e., intra-byte
information, is seldom considered. This is inherently inapt for classifying
variable-length coding files whose symbols are represented as the variable
number of bits. Conversely, we propose Byte2Image, a novel data augmentation
technique, to introduce the neglected intra-byte information into file
fragments and re-treat them as 2d gray-scale images, which allows us to capture
both inter-byte and intra-byte correlations simultaneously through powerful
convolutional neural networks (CNNs). Specifically, to convert file fragments
to 2d images, we employ a sliding byte window to expose the neglected
intra-byte information and stack their n-gram features row by row. We further
propose a byte sequence \& image fusion network as a classifier, which can
jointly model the raw 1d byte sequence and the converted 2d image to perform
FFC. Experiments on FFT-75 dataset validate that our proposed method can
achieve notable accuracy improvements over state-of-the-art methods in nearly
all scenarios. The code will be released at
https://github.com/wenyang001/Byte2Image.
- Abstract(参考訳): メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法は主にファイルフラグメントを1dバイト信号として扱い、キャプチャされたバイト間特徴を分類に利用するが、バイト内のビット情報(バイト内情報)はめったに考慮されない。
これは本質的に、シンボルがビットの可変数として表される可変長の符号化ファイルの分類に不適応である。
逆に,新しいデータ拡張手法であるByte2Imageを提案し,ファイルフラグメントに無視されたバイト内情報を2dグレースケールの画像として再処理することで,強力な畳み込みニューラルネットワーク(CNN)によって,バイト間相関とバイト内相関を同時に捉えることができる。
具体的には,ファイルフラグメントを2次元画像に変換するためにスライディングバイトウィンドウを用いて,無視したバイト内情報を公開し,n-gramの特徴を行単位で積み重ねる。
さらに、生の1dバイトシーケンスと変換された2dイメージを併用してFFCを行うことができる分類器としてバイトシーケンス \&画像融合ネットワークを提案する。
FFT-75データセットを用いた実験により,提案手法がほぼすべてのシナリオにおいて最先端手法に対して顕著な精度向上を達成できることを確認した。
コードはhttps://github.com/wenyang001/byte2imageでリリースされる。
関連論文リスト
- DocBinFormer: A Two-Level Transformer Network for Effective Document
Image Binarization [17.087982099845156]
文書のバイナライゼーションは、あらゆる文書分析タスクにおいて最も最適なパフォーマンスを達成するための基本的で重要なステップである。
文書画像の効果的なバイナライゼーションのための視覚変換器をベースとした新しい2レベル視覚変換器(TL-ViT)アーキテクチャであるDocBinFormerを提案する。
論文 参考訳(メタデータ) (2023-12-06T16:01:29Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - Bytes Are All You Need: Transformers Operating Directly On File Bytes [59.01478937475535]
推論時にファイルの復号化を必要とせずに、ファイルバイトを直接分類する。
私たちのモデルであるemphByteFormerは、TIFFファイルバイトを直接トレーニングおよびテストする際に、ImageNet Top-1の分類精度が7.33%である。
また、ByteFormerがプライバシ保護推論に応用されていることも示しています。
論文 参考訳(メタデータ) (2023-05-31T23:18:21Z) - EC-SfM: Efficient Covisibility-based Structure-from-Motion for Both
Sequential and Unordered Images [24.6736600856999]
本稿では、非順序のインターネット画像に対する効率的なコビジュアビリティに基づくインクリメンタルSfMを提案する。
逐次的画像、非順序画像、これら2つの混合画像を効率的に再構成するための統一的な枠組みを提案する。
提案手法は特徴マッチングの最先端技術よりも3倍高速であり,精度を犠牲にすることなく再現の精度は桁違いに向上する。
論文 参考訳(メタデータ) (2023-02-21T09:18:57Z) - Two-Stream Networks for Object Segmentation in Videos [83.1383102535413]
我々は,2ストリームネットワーク(TSN)を用いて,その画素レベルのメモリ検索に基づいて表示された画素を分割する。
インスタンスの全体的理解は、ターゲットインスタンスの特徴に基づいて動的セグメンテーションヘッドで得られる。
コンパクトなインスタンスストリームは、適応的なルーティングマップで2つのストリームを融合させながら、目に見えないピクセルのセグメンテーション精度を効果的に向上させる。
論文 参考訳(メタデータ) (2022-08-08T10:22:42Z) - Transform and Bitstream Domain Image Classification [2.4366811507669124]
本稿では,概念実証法として2つの方法を提案する。
第1はJPEG画像変換領域(DCT変換データ)内を分類し、第2はJPEG圧縮されたバイナリビットストリームを直接分類する。
Caltech C101データベースを分類すると、Top-1の精度は約70%と60%に達した。
論文 参考訳(メタデータ) (2021-10-13T14:18:58Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Memory-guided Unsupervised Image-to-image Translation [54.1903150849536]
インスタンスレベルの画像から画像への変換のための教師なしのフレームワークを提案する。
我々のモデルは最近のインスタンスレベルの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-12T03:02:51Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。