論文の概要: Bytes Are All You Need: Transformers Operating Directly On File Bytes
- arxiv url: http://arxiv.org/abs/2306.00238v1
- Date: Wed, 31 May 2023 23:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:00:08.535559
- Title: Bytes Are All You Need: Transformers Operating Directly On File Bytes
- Title(参考訳): バイト: ファイルバイト上で直接動作するトランスフォーマー
- Authors: Maxwell Horton, Sachin Mehta, Ali Farhadi, Mohammad Rastegari
- Abstract要約: 推論時にファイルの復号化を必要とせずに、ファイルバイトを直接分類する。
私たちのモデルであるemphByteFormerは、TIFFファイルバイトを直接トレーニングおよびテストする際に、ImageNet Top-1の分類精度が7.33%である。
また、ByteFormerがプライバシ保護推論に応用されていることも示しています。
- 参考スコア(独自算出の注目度): 59.01478937475535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning approaches usually transform inputs into a
modality-specific form. For example, the most common deep learning approach to
image classification involves decoding image file bytes into an RGB tensor
which is passed into a neural network. Instead, we investigate performing
classification directly on file bytes, without the need for decoding files at
inference time. Using file bytes as model inputs enables the development of
models which can operate on multiple input modalities. Our model,
\emph{ByteFormer}, achieves an ImageNet Top-1 classification accuracy of
$77.33\%$ when training and testing directly on TIFF file bytes using a
transformer backbone with configuration similar to DeiT-Ti ($72.2\%$ accuracy
when operating on RGB images). Without modifications or hyperparameter tuning,
ByteFormer achieves $95.42\%$ classification accuracy when operating on WAV
files from the Speech Commands v2 dataset (compared to state-of-the-art
accuracy of $98.7\%$). Additionally, we demonstrate that ByteFormer has
applications in privacy-preserving inference. ByteFormer is capable of
performing inference on particular obfuscated input representations with no
loss of accuracy. We also demonstrate ByteFormer's ability to perform inference
with a hypothetical privacy-preserving camera which avoids forming full images
by consistently masking $90\%$ of pixel channels, while still achieving
$71.35\%$ accuracy on ImageNet. Our code will be made available at
https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
- Abstract(参考訳): 現代のディープラーニングアプローチは通常、入力をモダリティ固有の形式に変換する。
例えば、画像分類における最も一般的なディープラーニングアプローチは、画像ファイルバイトをニューラルネットワークに渡されるRGBテンソルにデコードすることである。
代わりに、推論時にファイルの復号化を必要とせず、ファイルバイトを直接分類することを検討する。
ファイルバイトをモデル入力として使用することで、複数の入力モードで操作できるモデルの開発が可能になる。
我々のモデルである \emph{byteformer} は、tiffファイルバイトを直接トレーニングしテストする際に、deit-ti(rgbイメージで操作する場合の精度72.2\%)に似た構成のトランスフォーマーバックボーンを使用して、imagenet top-1の分類精度を7.33\%$で達成する。
修正やハイパーパラメータチューニングなしで、ByteFormerは、Speech Commands v2データセットからWAVファイルを操作する際に、95.42\%$の分類精度を達成している。
さらに、ByteFormerはプライバシ保護推論に応用できることを示す。
byteformerは、精度を損なうことなく、特定の難読化された入力表現で推論を行うことができる。
また、byteformerが仮想プライバシ保存カメラで推論を行う能力も示しています。これは、イメージネットで711.35\%の精度を保ちながら、一貫して90\%のピクセルチャネルをマスクすることでフルイメージを形成するのを防ぎます。
私たちのコードはhttps://github.com/apple/ml-cvnets/tree/main/examples/byteformerで利用可能になります。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings [21.14735408046021]
メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
論文 参考訳(メタデータ) (2023-04-14T08:06:52Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Matching Feature Sets for Few-Shot Image Classification [22.84472344406448]
セットベースの表現は本質的に、ベースクラスからの画像のよりリッチな表現を構築します。
私たちのアプローチは、SetFeatと呼ばれ、既存のエンコーダアーキテクチャに浅い自己アテンションメカニズムを組み込んでいます。
論文 参考訳(メタデータ) (2022-04-02T22:42:54Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - Rethinking CNN Models for Audio Classification [20.182928938110923]
ImageNet-Pretrained標準CNNモデルは、音声分類のための強力なベースラインネットワークとして使用できる。
事前学習した重量のどれがスペクトログラムの学習に役立つかを系統的に研究する。
事前訓練した重みを用いた標準モデルでは、ランダムなデンス重みを使用するよりもよいことを示す。
論文 参考訳(メタデータ) (2020-07-22T01:31:44Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。