論文の概要: A Comparison for Patch-level Classification of Deep Learning Methods on
Transparent Images: from Convolutional Neural Networks to Visual Transformers
- arxiv url: http://arxiv.org/abs/2106.11582v1
- Date: Tue, 22 Jun 2021 07:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:57:45.989854
- Title: A Comparison for Patch-level Classification of Deep Learning Methods on
Transparent Images: from Convolutional Neural Networks to Visual Transformers
- Title(参考訳): 透明画像における深層学習手法のパッチレベル分類の比較:畳み込みニューラルネットワークから視覚変換器へ
- Authors: Hechen Yang, Chen Li, Peng Zhao, Ao Chen, Xin Zhao and Marcin
Grzegorzek
- Abstract要約: 本研究では,透過的な画像の解析が困難である問題に対して,異なるディープラーニングの分類性能を比較した。
我々は、4種類の畳み込みニューラルネットワークと新しいViTネットワークモデルを用いて、前景と背景の分類実験を比較する。
- 参考スコア(独自算出の注目度): 14.239178068576457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, analysis of transparent images in the field of computer vision has
gradually become a hot spot. In this paper, we compare the classification
performance of different deep learning for the problem that transparent images
are difficult to analyze. We crop the transparent images into 8 * 8 and 224 *
224 pixels patches in the same proportion, and then divide the two different
pixels patches into foreground and background according to groundtruch. We also
use 4 types of convolutional neural networks and a novel ViT network model to
compare the foreground and background classification experiments. We conclude
that ViT performs the worst in classifying 8 * 8 pixels patches, but it
outperforms most convolutional neural networks in classifying 224 * 224.
- Abstract(参考訳): 近年,コンピュータビジョンの領域における透明画像の解析がホットスポットになりつつある。
本稿では,透過的な画像の解析が困難である問題に対して,異なるディープラーニングの分類性能を比較した。
透明な画像を8 * 8 と 224 * 224 の224ピクセルに同じ比率で分割し、2つの異なるピクセルのパッチを前景と背景に分割します。
また,4種類の畳み込みニューラルネットワークと新しいvitネットワークモデルを用いて,前景と背景分類実験を比較した。
ViTは8×8ピクセルのパッチの分類では最悪だが、224×224の分類ではほとんどの畳み込みニューラルネットワークを上回っている。
関連論文リスト
- An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels [65.64402188506644]
バニラ変換器は個々のピクセルをトークンとして扱い、高性能な結果を得られる。
主にコンピュータビジョンにおける3つのよく研究されたタスクにおける画素・アズ・トークンの有効性を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Deep Neural Networks Fused with Textures for Image Classification [20.58839604333332]
きめ細かい画像分類はコンピュータビジョンにおいて難しい課題である。
グローバルテクスチャと局所パッチ情報を組み合わせたFGICの融合手法を提案する。
提案手法は,有意なマージンを有する既存手法よりも高い分類精度を達成できた。
論文 参考訳(メタデータ) (2023-08-03T15:21:08Z) - Deep Learning Based Automated COVID-19 Classification from Computed
Tomography Images [0.0]
本稿では,画像分類のための畳み込みニューラルネットワーク(CNN)モデルを提案する。
本研究では,2次元CNNモデルを用いて2次元CTスキャン画像のスライスを簡易に分類する手法を提案する。
アーキテクチャの単純さにもかかわらず、提案モデルでは、同じ画像のデータセット上で、最先端技術を上回る定量的結果が得られた。
論文 参考訳(メタデータ) (2021-11-22T13:35:10Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - A Comparison for Anti-noise Robustness of Deep Learning Classification
Methods on a Tiny Object Image Dataset: from Convolutional Neural Network to
Visual Transformer and Performer [27.023667473278266]
まず,ディープラーニングにおける畳み込みニューラルネットワークとビジュアルトランスフォーマーの開発について概説する。
次に、畳み込みニューラルネットワークとビジュアルトランスフォーマーの様々なモデルを用いて、小さなオブジェクトの画像データセット上で一連の実験を行う。
小型物体の分類における問題点を論じ, 今後, 小型物体の分類を展望する。
論文 参考訳(メタデータ) (2021-06-03T15:28:17Z) - Contrastive Learning with Stronger Augmentations [63.42057690741711]
本論文では,現在のコントラスト学習のアプローチを補完する,より強い拡張(A)によるコントラスト学習という汎用フレームワークを提案する。
ここでは、表現バンク上の弱強調画像と強拡張画像との間の分布のばらつきを利用して、強拡張クエリの検索を監督する。
実験では、強力な画像からの情報により、パフォーマンスが大幅に向上します。
論文 参考訳(メタデータ) (2021-04-15T18:40:04Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z) - FrequentNet: A Novel Interpretable Deep Learning Model for Image
Classification [1.7205106391379026]
本稿では,画像分類の利点を活かした新しいベースライン深層学習モデルを提案する。
PCANet: A Simple Deep Learning Baseline for Image Classification?
論文 参考訳(メタデータ) (2020-01-04T04:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。