論文の概要: Bytes Are All You Need: Transformers Operating Directly On File Bytes
- arxiv url: http://arxiv.org/abs/2306.00238v2
- Date: Mon, 1 Jul 2024 15:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 18:09:56.580731
- Title: Bytes Are All You Need: Transformers Operating Directly On File Bytes
- Title(参考訳): ファイルバイトを直接操作するトランスフォーマー
- Authors: Maxwell Horton, Sachin Mehta, Ali Farhadi, Mohammad Rastegari,
- Abstract要約: 推論時にファイルの復号化を必要とせず、ファイルバイトの分類を行うことにより、モダリティ非依存表現学習について検討する。
私たちのモデルであるByteFormerは、ImageNet Top-1の分類精度を$5%改善します。
我々は、同じByteFormerアーキテクチャが、修正やモダリティ固有の前処理なしでオーディオ分類を行うことができることを示した。
- 参考スコア(独自算出の注目度): 55.81123238702553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning approaches usually utilize modality-specific processing. For example, the most common deep learning approach to image classification involves decoding image file bytes into an RGB tensor which is passed into a neural network. Instead, we investigate modality-independent representation learning by performing classification directly on file bytes, without the need for decoding files at inference time. This enables models to operate on various modalities without any hand-designed, modality-specific processing. Our model, ByteFormer, improves ImageNet Top-1 classification accuracy by $5\%$ (from $72.2\%$ to $77.33\%$) relative to DeIT models of similar size. Compared to Perceiver IO, our model requires absolutely no modality-specific processing at inference time, and uses an order of magnitude fewer parameters at equivalent accuracy on ImageNet. We demonstrate that the same ByteFormer architecture can perform audio classification without modifications or modality-specific preprocessing. We achieve $95.42\%$ classification accuracy on the Speech Commands V2 dataset (comparable to the state-of-the-art accuracy of $98.7\%$). Additionally, we demonstrate that ByteFormer can operate jointly on images and audio, handling joint classification without explicit knowledge of the input modality. We release our code at https://github.com/apple/corenet/tree/main/projects/byteformer.
- Abstract(参考訳): 現代のディープラーニングアプローチは、通常、モダリティ固有の処理を利用する。
例えば、画像分類における最も一般的なディープラーニングアプローチは、画像ファイルバイトをニューラルネットワークに渡されるRGBテンソルにデコードすることである。
そこで本研究では,ファイルバイトの分類を推論時に復号化することなく直接行うことで,モーダリティ非依存表現学習について検討する。
これにより、手作業で設計したモダリティ固有の処理を使わずに、様々なモダリティでモデルを動作させることができる。
私たちのモデルであるByteFormerは、同じサイズのDeITモデルと比較して、ImageNet Top-1の分類精度を5\%($72.2\%から$7.33\%)改善します。
Perceiver IOと比較して、我々のモデルは推論時にモーダリティ固有の処理を全く必要とせず、ImageNetで同等の精度で桁違いに少ないパラメータを使用する。
我々は、同じByteFormerアーキテクチャが、修正やモダリティ固有の前処理なしでオーディオ分類を行うことができることを示した。
我々は、Speech Commands V2データセットの分類精度9,5.42\%(最先端精度9,8.7\%)を達成する。
さらに、ByteFormerは画像と音声を共同で操作し、入力モードの明示的な知識を必要とせずに、共同分類を処理できることを実証した。
私たちはhttps://github.com/apple/corenet/tree/main/projects/byteformer.comでコードをリリースします。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings [21.14735408046021]
メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
論文 参考訳(メタデータ) (2023-04-14T08:06:52Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Matching Feature Sets for Few-Shot Image Classification [22.84472344406448]
セットベースの表現は本質的に、ベースクラスからの画像のよりリッチな表現を構築します。
私たちのアプローチは、SetFeatと呼ばれ、既存のエンコーダアーキテクチャに浅い自己アテンションメカニズムを組み込んでいます。
論文 参考訳(メタデータ) (2022-04-02T22:42:54Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - Rethinking CNN Models for Audio Classification [20.182928938110923]
ImageNet-Pretrained標準CNNモデルは、音声分類のための強力なベースラインネットワークとして使用できる。
事前学習した重量のどれがスペクトログラムの学習に役立つかを系統的に研究する。
事前訓練した重みを用いた標準モデルでは、ランダムなデンス重みを使用するよりもよいことを示す。
論文 参考訳(メタデータ) (2020-07-22T01:31:44Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。