論文の概要: ByteNet: Rethinking Multimedia File Fragment Classification through Visual Perspectives
- arxiv url: http://arxiv.org/abs/2410.20855v1
- Date: Mon, 28 Oct 2024 09:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:23:03.298479
- Title: ByteNet: Rethinking Multimedia File Fragment Classification through Visual Perspectives
- Title(参考訳): ByteNet:ビジュアルパースペクティブによるマルチメディアファイルフラグメント分類の再考
- Authors: Wenyang Liu, Kejun Wu, Tianyi Liu, Yi Wang, Kim-Hui Yap, Lap-Pui Chau,
- Abstract要約: マルチメディアファイルフラグメント分類(MFFC)は、システムメタデータなしでファイルフラグメントタイプを識別することを目的としている。
既存のMFFC法はフラグメントを1Dバイトシーケンスとして扱い、分類のために別々のバイト(バイト)の関係を強調する。
Byte2Imageは、以前見過ごされたバイト内情報をファイルのフラグメントに組み込んで、これらのフラグメントを2Dイメージとして再解釈する。
ByteNetは、浅いバイト分岐特徴抽出(BBFE)と深いイメージ分岐特徴抽出(IBFE)ネットワークを介して、生の1Dバイトシーケンスと変換された2Dイメージをフル活用する。
- 参考スコア(独自算出の注目度): 23.580848165023962
- License:
- Abstract: Multimedia file fragment classification (MFFC) aims to identify file fragment types, e.g., image/video, audio, and text without system metadata. It is of vital importance in multimedia storage and communication. Existing MFFC methods typically treat fragments as 1D byte sequences and emphasize the relations between separate bytes (interbytes) for classification. However, the more informative relations inside bytes (intrabytes) are overlooked and seldom investigated. By looking inside bytes, the bit-level details of file fragments can be accessed, enabling a more accurate classification. Motivated by this, we first propose Byte2Image, a novel visual representation model that incorporates previously overlooked intrabyte information into file fragments and reinterprets these fragments as 2D grayscale images. This model involves a sliding byte window to reveal the intrabyte information and a rowwise stacking of intrabyte ngrams for embedding fragments into a 2D space. Thus, complex interbyte and intrabyte correlations can be mined simultaneously using powerful vision networks. Additionally, we propose an end-to-end dual-branch network ByteNet to enhance robust correlation mining and feature representation. ByteNet makes full use of the raw 1D byte sequence and the converted 2D image through a shallow byte branch feature extraction (BBFE) and a deep image branch feature extraction (IBFE) network. In particular, the BBFE, composed of a single fully-connected layer, adaptively recognizes the co-occurrence of several some specific bytes within the raw byte sequence, while the IBFE, built on a vision Transformer, effectively mines the complex interbyte and intrabyte correlations from the converted image. Experiments on the two representative benchmarks, including 14 cases, validate that our proposed method outperforms state-of-the-art approaches on different cases by up to 12.2%.
- Abstract(参考訳): マルチメディアファイルフラグメント分類(MFFC)は、システムメタデータなしでファイルのフラグメントタイプ、例えば、画像/ビデオ、オーディオ、テキストを識別することを目的としている。
マルチメディアストレージと通信において重要な役割を担っている。
既存のMFFC法は通常、フラグメントを1Dバイトシーケンスとして扱い、分類のために別々のバイト(バイト)の関係を強調する。
しかし、バイト(イントラバイト)内のより情報的な関係は見過ごされ、調査されることはめったにない。
バイト内を見ることで、ファイルフラグメントのビットレベルの詳細にアクセスでき、より正確な分類が可能になる。
そこで我々は,これまで見過ごされていたバイト内情報をファイルのフラグメントに組み込んだ新しい視覚表現モデルByte2Imageを提案し,これらのフラグメントを2Dグレースケールの画像として再解釈する。
このモデルは、バイト単位の情報を明らかにするスライディングバイトウィンドウと、フラグメントを2次元空間に埋め込むために、バイト単位のnグラムを行順に重ねる。
このように、複雑なバイト間相関とバイト内相関は、強力なビジョンネットワークを用いて同時にマイニングすることができる。
さらに、ロバストな相関マイニングと特徴表現を強化するために、エンドツーエンドのデュアルブランチネットワークByteNetを提案する。
ByteNetは、浅いバイト分岐特徴抽出(BBFE)と深いイメージ分岐特徴抽出(IBFE)ネットワークを介して、生の1Dバイトシーケンスと変換された2Dイメージをフル活用する。
特に、BBFEは、単一の完全に接続された層で構成され、生のバイトシーケンス内のいくつかの特定のバイトの共起を適応的に認識し、IBFEは視覚変換器上に構築され、変換された画像から複雑なバイト間およびバイト内相関を効果的にマイニングする。
14例を含む2つの代表的なベンチマーク実験により,提案手法が各ケースの最先端アプローチを最大12.2%向上させることを確認した。
関連論文リスト
- Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - DocBinFormer: A Two-Level Transformer Network for Effective Document
Image Binarization [17.087982099845156]
文書のバイナライゼーションは、あらゆる文書分析タスクにおいて最も最適なパフォーマンスを達成するための基本的で重要なステップである。
文書画像の効果的なバイナライゼーションのための視覚変換器をベースとした新しい2レベル視覚変換器(TL-ViT)アーキテクチャであるDocBinFormerを提案する。
論文 参考訳(メタデータ) (2023-12-06T16:01:29Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings [21.14735408046021]
メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
論文 参考訳(メタデータ) (2023-04-14T08:06:52Z) - Towards Diverse Binary Segmentation via A Simple yet General Gated Network [71.19503376629083]
本稿では,バイナリセグメンテーションタスクに対処するシンプルな汎用ネットワーク(GateNet)を提案する。
多段ゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに選択的に送信することができる。
我々は,アトーラスの畳み込みを改善し,新規な折り畳み畳み畳み畳み畳み込みを形成する「Fold」操作を導入した。
論文 参考訳(メタデータ) (2023-03-18T11:26:36Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for
Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。
PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-09T10:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。