論文の概要: Bytes Are All You Need: Transformers Operating Directly On File Bytes
- arxiv url: http://arxiv.org/abs/2306.00238v1
- Date: Wed, 31 May 2023 23:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:00:08.535559
- Title: Bytes Are All You Need: Transformers Operating Directly On File Bytes
- Title(参考訳): バイト: ファイルバイト上で直接動作するトランスフォーマー
- Authors: Maxwell Horton, Sachin Mehta, Ali Farhadi, Mohammad Rastegari
- Abstract要約: 推論時にファイルの復号化を必要とせずに、ファイルバイトを直接分類する。
私たちのモデルであるemphByteFormerは、TIFFファイルバイトを直接トレーニングおよびテストする際に、ImageNet Top-1の分類精度が7.33%である。
また、ByteFormerがプライバシ保護推論に応用されていることも示しています。
- 参考スコア(独自算出の注目度): 59.01478937475535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning approaches usually transform inputs into a
modality-specific form. For example, the most common deep learning approach to
image classification involves decoding image file bytes into an RGB tensor
which is passed into a neural network. Instead, we investigate performing
classification directly on file bytes, without the need for decoding files at
inference time. Using file bytes as model inputs enables the development of
models which can operate on multiple input modalities. Our model,
\emph{ByteFormer}, achieves an ImageNet Top-1 classification accuracy of
$77.33\%$ when training and testing directly on TIFF file bytes using a
transformer backbone with configuration similar to DeiT-Ti ($72.2\%$ accuracy
when operating on RGB images). Without modifications or hyperparameter tuning,
ByteFormer achieves $95.42\%$ classification accuracy when operating on WAV
files from the Speech Commands v2 dataset (compared to state-of-the-art
accuracy of $98.7\%$). Additionally, we demonstrate that ByteFormer has
applications in privacy-preserving inference. ByteFormer is capable of
performing inference on particular obfuscated input representations with no
loss of accuracy. We also demonstrate ByteFormer's ability to perform inference
with a hypothetical privacy-preserving camera which avoids forming full images
by consistently masking $90\%$ of pixel channels, while still achieving
$71.35\%$ accuracy on ImageNet. Our code will be made available at
https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
- Abstract(参考訳): 現代のディープラーニングアプローチは通常、入力をモダリティ固有の形式に変換する。
例えば、画像分類における最も一般的なディープラーニングアプローチは、画像ファイルバイトをニューラルネットワークに渡されるRGBテンソルにデコードすることである。
代わりに、推論時にファイルの復号化を必要とせず、ファイルバイトを直接分類することを検討する。
ファイルバイトをモデル入力として使用することで、複数の入力モードで操作できるモデルの開発が可能になる。
我々のモデルである \emph{byteformer} は、tiffファイルバイトを直接トレーニングしテストする際に、deit-ti(rgbイメージで操作する場合の精度72.2\%)に似た構成のトランスフォーマーバックボーンを使用して、imagenet top-1の分類精度を7.33\%$で達成する。
修正やハイパーパラメータチューニングなしで、ByteFormerは、Speech Commands v2データセットからWAVファイルを操作する際に、95.42\%$の分類精度を達成している。
さらに、ByteFormerはプライバシ保護推論に応用できることを示す。
byteformerは、精度を損なうことなく、特定の難読化された入力表現で推論を行うことができる。
また、byteformerが仮想プライバシ保存カメラで推論を行う能力も示しています。これは、イメージネットで711.35\%の精度を保ちながら、一貫して90\%のピクセルチャネルをマスクすることでフルイメージを形成するのを防ぎます。
私たちのコードはhttps://github.com/apple/ml-cvnets/tree/main/examples/byteformerで利用可能になります。
関連論文リスト
- A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings [21.14735408046021]
メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
論文 参考訳(メタデータ) (2023-04-14T08:06:52Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Reproducing BowNet: Learning Representations by Predicting Bags of
Visual Words [2.1485350418225244]
本研究は,GidarisらによるCVPR 2020論文の成果を再現することを目的としている。
本研究は,頑健で深層表現を学習するための自己教師型学習ターゲットとして,back-of-words (BoW) Deep Feature Descriptorsの使用を提案する。
論文 参考訳(メタデータ) (2022-01-10T07:00:22Z) - Pyramid Adversarial Training Improves ViT Performance [43.322865996422664]
ピラミッド逆行訓練は、ViTの全体的な性能を改善するためのシンプルで効果的な技術である。
これにより、ImageNet-1Kデータでのみトレーニングされた場合、ViT-Bモデルに対して、ImageNetのクリーンな精度が1.82%$で絶対的に向上する。
論文 参考訳(メタデータ) (2021-11-30T04:38:14Z) - DPT: Deformable Patch-based Transformer for Visual Recognition [57.548916081146814]
本稿では,デフォルマブルパッチ (Deformable Patch) モジュールを提案する。デフォルマブルパッチ(Deformable Patch, DePatch)モジュールは,画像を異なる位置とスケールのパッチに適応的に分割し,データ駆動方式でスケールする。
DePatchモジュールはプラグイン・アンド・プレイモジュールとして動作し、異なるトランスフォーマーに簡単に組み込んでエンドツーエンドのトレーニングを実現することができる。
論文 参考訳(メタデータ) (2021-07-30T07:33:17Z) - BEiT: BERT Pre-Training of Image Transformers [43.704968112586876]
本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
論文 参考訳(メタデータ) (2021-06-15T16:02:37Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。