論文の概要: Transform and Bitstream Domain Image Classification
- arxiv url: http://arxiv.org/abs/2110.06740v1
- Date: Wed, 13 Oct 2021 14:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 19:34:22.097392
- Title: Transform and Bitstream Domain Image Classification
- Title(参考訳): 変換とビットストリーム領域画像分類
- Authors: P.R. Hill, D.R. Bull
- Abstract要約: 本稿では,概念実証法として2つの方法を提案する。
第1はJPEG画像変換領域(DCT変換データ)内を分類し、第2はJPEG圧縮されたバイナリビットストリームを直接分類する。
Caltech C101データベースを分類すると、Top-1の精度は約70%と60%に達した。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification of images within the compressed domain offers significant
benefits. These benefits include reduced memory and computational requirements
of a classification system. This paper proposes two such methods as a proof of
concept: The first classifies within the JPEG image transform domain (i.e. DCT
transform data); the second classifies the JPEG compressed binary bitstream
directly. These two methods are implemented using Residual Network CNNs and an
adapted Vision Transformer. Top-1 accuracy of approximately 70% and 60% were
achieved using these methods respectively when classifying the Caltech C101
database. Although these results are significantly behind the state of the art
for classification for this database (~95%), it illustrates the first time
direct bitstream image classification has been achieved. This work confirms
that direct bitstream image classification is possible and could be utilised in
a first pass database screening of a raw bitstream (within a wired or wireless
network) or where computational, memory and bandwidth requirements are severely
restricted.
- Abstract(参考訳): 圧縮領域内の画像の分類は大きな利点をもたらす。
これらの利点には、メモリの削減と分類システムの計算要件が含まれる。
本稿では、概念実証法として、jpeg画像変換ドメイン(すなわちdct変換データ)内に分類する手法と、jpeg圧縮されたバイナリビットストリームを直接分類する手法を提案する。
これらの2つの手法は、Residual Network CNNと適応型Vision Transformerを用いて実装されている。
Caltech C101データベースを分類すると、それぞれ70%と60%のTop-1精度が得られた。
これらの結果は、このデータベースの分類技術(約95%)にかなり遅れているが、直接ビットストリーム画像分類が達成された最初の例である。
この研究は、直接ビットストリーム画像の分類が可能であり、生のビットストリーム(有線または無線ネットワーク内)の第一パスデータベーススクリーニングや、計算、メモリ、帯域幅の要件が厳しく制限された場合に使用できることを確認している。
関連論文リスト
- Deep Neural Networks Fused with Textures for Image Classification [20.58839604333332]
きめ細かい画像分類はコンピュータビジョンにおいて難しい課題である。
グローバルテクスチャと局所パッチ情報を組み合わせたFGICの融合手法を提案する。
提案手法は,有意なマージンを有する既存手法よりも高い分類精度を達成できた。
論文 参考訳(メタデータ) (2023-08-03T15:21:08Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - A Byte Sequence is Worth an Image: CNN for File Fragment Classification
Using Bit Shift and n-Gram Embeddings [21.14735408046021]
メモリの小さなチャンク上のファイル断片分類(FFC)は、メモリ科学とインターネットセキュリティにおいて不可欠である。
既存の方法はファイルフラグメントを1dバイトの信号として扱い、キャプチャされたバイト間の特徴を分類に利用している。
ファイルフラグメントに無視されたバイト内情報を導入し、2次元グレースケールの画像として再処理するための新しいデータ拡張手法Byte2Imageを提案する。
論文 参考訳(メタデータ) (2023-04-14T08:06:52Z) - Data Augmentation Vision Transformer for Fine-grained Image
Classification [1.6211899643913996]
本稿では,データ拡張に基づくデータ拡張ビジョントランス (DAVT) を提案する。
また,階層的注意選択(HAS)手法を提案し,学習レベル間の識別マーカーの識別能力を向上させる。
実験結果から,CUB-200-2011とStanford Dogsの2つの一般データセットにおける本手法の精度は,従来の主流手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-23T11:34:11Z) - Privacy-Preserving Image Classification Using Isotropic Network [14.505867475659276]
本稿では,暗号化画像と視覚変換器などの等方性ネットワークを用いたプライバシー保護画像分類手法を提案する。
提案手法では,深層ニューラルネットワーク(DNN)に視覚情報のない画像を適用するだけでなく,高い分類精度を維持することができる。
論文 参考訳(メタデータ) (2022-04-16T03:15:54Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - An Image is Worth 16x16 Words: Transformers for Image Recognition at
Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文 参考訳(メタデータ) (2020-10-22T17:55:59Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Remote Sensing Image Scene Classification with Deep Neural Networks in
JPEG 2000 Compressed Domain [8.296684637620553]
ディープニューラルネットワーク(DNN)を用いた既存のシーン分類アプローチでは、画像を完全に圧縮する必要がある。
JPEG 2000圧縮RS画像におけるシーン分類を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-20T09:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。