論文の概要: MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments
- arxiv url: http://arxiv.org/abs/2606.04171v1
- Date: Tue, 02 Jun 2026 19:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.354859
- Title: MimeLens: Position-Agnostic Content-Type Detection for Binary Fragments
- Title(参考訳): MimeLens: バイナリフラグメントの位置非依存型コンテンツ型検出
- Authors: Michael J. Bommarito,
- Abstract要約: 各ファイル内の一様ランダムオフセットでサンプリングされたウィンドウから,バイナリコンテンツに基づいて事前学習した小BERTスタイルのUDPエンコーダ群を紹介する。
バイトチャンクはファイルのどこからでも入っており、ヘッダは不要で、サイズは固定されていない。
完全なファイルのクリーンなヘッドでは、MimeLens は libmagic-labeled のデータで Magika v1.1 を +10.7 pp Top-1 で打ち負かす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: File-type classification underlies many workflows like malware triage, forensic carving, packet inspection, and storage indexing. Learned systems such as Google's Magika assume whole-file access at a known offset, so they break on the inputs many of these tasks actually produce, like a single packet payload, a header-less carved fragment, a random disk block, or a chunked upload. We introduce MimeLens, a family of small BERT-style encoders pretrained on binary content from windows sampled at a uniformly random offset within each file, with no privileged head-of-file position, in standard- and short-context variants. A byte chunk goes in from anywhere in a file, no header needed and no fixed size; out comes one of libmagic's 125 MIME labels. On the clean head of complete files, MimeLens beats Magika v1.1 by +10.7 pp top-1 on libmagic-labeled data, and it keeps classifying where Magika cannot: from a single mid-stream UDP packet, and more than twice as accurately as libmagic and Magika on random mid-file disk blocks. The cost is latency: MimeLens runs roughly one to two orders of magnitude slower per sample on CPU than Magika, though it matches on consumer GPUs or in batch. All trained checkpoints are released on Hugging Face (mjbommar/mimelens-001-*).
- Abstract(参考訳): ファイルタイプの分類は、マルウェアのトリアージ、法医学的彫刻、パケット検査、ストレージインデックス作成など、多くのワークフローを基盤としている。
GoogleのMagikaのような学習されたシステムは、既知のオフセットでファイル全体のアクセスを前提としているため、単一のパケットペイロード、ヘッダレスの断片、ランダムディスクブロック、チャンクされたアップロードなど、実際に発生する多くのタスクの入力を分解する。
ミメレンス(MimeLens)は、ファイル内の一様にランダムなオフセットでサンプリングされたウィンドウから、バイナリコンテンツに基づいて事前訓練された小さなBERTスタイルのエンコーダのファミリーである。
バイトチャンクはファイルのどこからでも入っており、ヘッダは不要で、固定サイズもない。
完全なファイルのクリーンなヘッドでは、MimeLens は libmagic-labeled のデータで Magika v1.1 を +10.7 pp top-1 で打ち負かし、MimeLens は Magika ができない場所を分類している。
MimeLensは、MagikaよりもCPU上のサンプル毎に約1~2桁遅く動作しますが、コンシューマGPUやバッチにマッチします。
すべての訓練されたチェックポイントはHugging Face (mjbommar/mimelens-001-*)でリリースされている。
関連論文リスト
- Move the Query, Not the Cache: Characterizing Cross-Instance Latent Attention Redistribution Across GPU Fabrics [1.081571058570587]
Multi-head Latent Attentionは算術を逆転し、各トークンのキーと値を1つの狭いベクトルに圧縮する。
実マルチノードH100クラスタ上でのクロスインスタンスMLAの注意を特徴付ける。
論文 参考訳(メタデータ) (2026-05-31T23:53:24Z) - FlashSampling: Fast and Memory-Efficient Exact Sampling [62.5203057469482]
FlashSamplingは正確なサンプリングプリミティブで、LMヘッドのマトゥルにサンプリングを融合し、ロジットテンソルを生成しない。
H100、H200、B200、B300 GPU全体で、FlashSamplingはカーネルレベルのデコードワークロードを高速化する。
エンドツーエンドのvLLM実験では、テストしたモデルで出力トークン当たりの時間を最大19%削減します。
論文 参考訳(メタデータ) (2026-03-16T19:37:08Z) - Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs [51.56484100374058]
FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。
Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
論文 参考訳(メタデータ) (2025-11-17T17:57:18Z) - Magika: AI-Powered Content-Type Detection [7.044121708548823]
我々は,AIを利用したコンテンツ型検出ツールMagikaを紹介する。
内部では、Magikaは1MBのメモリで単一のCPU上で実行できるディープラーニングモデルを採用している。
我々は,100以上のコンテンツタイプと100万ファイル以上のテストセットに対して,Magikaが平均99%のF1スコアを達成したことを示す。
論文 参考訳(メタデータ) (2024-09-18T17:24:39Z) - Honeyfile Camouflage: Hiding Fake Files in Plain Sight [20.708375447266338]
本稿では,ハニーファイルの命名の課題について考察する。
意味ベクトル空間におけるコサイン距離に基づいて、カモフラージュのための2つの指標を開発する。
私たちはメトリクスを評価して比較し、どちらも公開のGitHubソフトウェアリポジトリデータセットでうまく機能していることを示す。
論文 参考訳(メタデータ) (2024-05-08T02:01:17Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。