論文の概要: Magika: AI-Powered Content-Type Detection
- arxiv url: http://arxiv.org/abs/2409.13768v1
- Date: Wed, 18 Sep 2024 17:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:13:17.443305
- Title: Magika: AI-Powered Content-Type Detection
- Title(参考訳): Magika:AIによるコンテンツタイプ検出
- Authors: Yanick Fratantonio, Luca Invernizzi, Loua Farah, Kurt Thomas, Marina Zhang, Ange Albertini, Francois Galilee, Giancarlo Metitieri, Julien Cretin, Alex Petit-Bianco, David Tao, Elie Bursztein,
- Abstract要約: 我々は,AIを利用したコンテンツ型検出ツールMagikaを紹介する。
内部では、Magikaは1MBのメモリで単一のCPU上で実行できるディープラーニングモデルを採用している。
我々は,100以上のコンテンツタイプと100万ファイル以上のテストセットに対して,Magikaが平均99%のF1スコアを達成したことを示す。
- 参考スコア(独自算出の注目度): 7.044121708548823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of content-type detection -- which entails identifying the data encoded in an arbitrary byte sequence -- is critical for operating systems, development, reverse engineering environments, and a variety of security applications. In this paper, we introduce Magika, a novel AI-powered content-type detection tool. Under the hood, Magika employs a deep learning model that can execute on a single CPU with just 1MB of memory to store the model's weights. We show that Magika achieves an average F1 score of 99% across over a hundred content types and a test set of more than 1M files, outperforming all existing content-type detection tools today. In order to foster adoption and improvements, we open source Magika under an Apache 2 license on GitHub and make our model and training pipeline publicly available. Our tool has already seen adoption by the Gmail email provider for attachment scanning, and it has been integrated with VirusTotal to aid with malware analysis. We note that this paper discusses the first iteration of Magika, and a more recent version already supports more than 200 content types. The interested reader can see the latest development on the Magika GitHub repository, available at https://github.com/google/magika.
- Abstract(参考訳): 任意のバイトシーケンスでエンコードされたデータを識別するコンテンツ型検出のタスクは、オペレーティングシステム、開発、リバースエンジニアリング環境、およびさまざまなセキュリティアプリケーションにとって極めて重要である。
本稿では,AIを利用したコンテンツ型検出ツールMagikaを紹介する。
内部では、モデルの重みを保存するために1MBのメモリを持つ単一のCPU上で実行できるディープラーニングモデルを採用している。
我々は,Magikaが100以上のコンテンツタイプの平均F1スコアを99%,100万ファイル以上のテストセットを達成していることを示す。
採用と改善を促進するため、GitHubでApache 2ライセンスの下でMagikaをオープンソースにして、モデルとトレーニングパイプラインを公開しています。
当社のツールはすでにアタッチメントスキャンにGmailのメールプロバイダが採用しており、マルウェア分析を支援するためにVrusTotalと統合されています。
本稿では,Magikaの最初のイテレーションについて論じるとともに,より最近のバージョンでは200以上のコンテントタイプがすでにサポートされています。
Magika GitHubリポジトリの最新開発はhttps://github.com/google/magika.comで見ることができる。
関連論文リスト
- Not Just Change the Labels, Learn the Features: Watermarking Deep Neural Networks with Multi-View Data [10.564634073196117]
DNN内に効率よく透かしを埋め込むため,Multi-view dATa をベースとした新しい透かし手法 MAT を提案する。
提案手法を様々なベンチマークで検証し,モデル抽出攻撃に対する防御効果を示す。
論文 参考訳(メタデータ) (2024-03-15T20:12:41Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - Memory-augmented Online Video Anomaly Detection [2.269915940890348]
本稿では,ダッシュマウントカメラで撮影した映像のみを利用して,オンラインで動作可能なシステムを提案する。
モバドのAUCスコアは82.17%に達し、現在の最先端である+2.87 AUCを上回っている。
論文 参考訳(メタデータ) (2023-02-21T15:14:27Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - HLDC: Hindi Legal Documents Corpus [14.34616914884496]
Hindi Legal Documents Corpus (HLDC) は、ヒンディー語で900万以上の法的文書のコーパスである。
ドキュメントは、下流アプリケーションの開発を可能にするために、クリーンで構造化されている。
コーパスのユースケースとして,保釈予測の課題を紹介する。
論文 参考訳(メタデータ) (2022-04-02T08:22:52Z) - DeepLab2: A TensorFlow Library for Deep Labeling [118.95446843615049]
DeepLab2は、コンピュータビジョンにおける一般的な高密度ピクセル予測問題に対するディープラベリングのためのライブラリである。
DeepLab2には、トレーニング済みのチェックポイントとモデルトレーニングと評価コードを備えた、最近開発したDeepLabモデルのバリエーションがすべて含まれています。
DeepLab2の有効性を示すために、Axial-SWideRNetをネットワークバックボーンとして使用したPanoptic-DeepLabは、Cityscaspes検証セット上で68.0% PQまたは83.5% mIoUを達成した。
論文 参考訳(メタデータ) (2021-06-17T18:04:53Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - DMV: Visual Object Tracking via Part-level Dense Memory and Voting-based
Retrieval [61.366644088881735]
DMVと呼ばれる部分レベル高密度メモリと投票ベースの検索による新しいメモリベースのトラッカーを提案する。
また,メモリの信頼できない情報をフィルタリングする新たな投票機構を提案する。
論文 参考訳(メタデータ) (2020-03-20T10:05:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。