論文の概要: ROI-Aware Multiscale Cross-Attention Vision Transformer for Pest Image
Identification
- arxiv url: http://arxiv.org/abs/2312.16914v1
- Date: Thu, 28 Dec 2023 09:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:48:39.407758
- Title: ROI-Aware Multiscale Cross-Attention Vision Transformer for Pest Image
Identification
- Title(参考訳): 害虫画像識別のためのroi対応マルチスケールクロスタッチビジョントランスフォーマ
- Authors: Ga-Eun Kim, Chang-Hwan Son
- Abstract要約: 我々は、新しいROI対応マルチスケール・クロスアテンション・ビジョン・トランス (ROI-ViT) を提案する。
提案したROI-ViTは、PestとROIブランチと呼ばれる2つのブランチを使って設計されている。
実験の結果、提案されたROI-ViTはそれぞれIP102、D0、SauTegの害虫データセットに対して81.81%、99.64%、84.66%を達成した。
- 参考スコア(独自算出の注目度): 1.9580473532948401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pests captured with imaging devices may be relatively small in size
compared to the entire images, and complex backgrounds have colors and textures
similar to those of the pests, which hinders accurate feature extraction and
makes pest identification challenging. The key to pest identification is to
create a model capable of detecting regions of interest (ROIs) and transforming
them into better ones for attention and discriminative learning. To address
these problems, we will study how to generate and update the ROIs via
multiscale cross-attention fusion as well as how to be highly robust to complex
backgrounds and scale problems. Therefore, we propose a novel ROI-aware
multiscale cross-attention vision transformer (ROI-ViT). The proposed ROI-ViT
is designed using dual branches, called Pest and ROI branches, which take
different types of maps as input: Pest images and ROI maps. To render such ROI
maps, ROI generators are built using soft segmentation and a class activation
map and then integrated into the ROI-ViT backbone. Additionally, in the dual
branch, complementary feature fusion and multiscale hierarchies are implemented
via a novel multiscale cross-attention fusion. The class token from the Pest
branch is exchanged with the patch tokens from the ROI branch, and vice versa.
The experimental results show that the proposed ROI-ViT achieves 81.81%,
99.64%, and 84.66% for IP102, D0, and SauTeg pest datasets, respectively,
outperforming state-of-the-art (SOTA) models, such as MViT, PVT, DeiT,
Swin-ViT, and EfficientNet. More importantly, for the new challenging dataset
IP102(CBSS) that contains only pest images with complex backgrounds and small
sizes, the proposed model can maintain high recognition accuracy, whereas that
of other SOTA models decrease sharply, demonstrating that our model is more
robust to complex background and scale problems.
- Abstract(参考訳): 撮像装置で捕獲された害虫は、画像全体に比べて比較的小さく、複雑な背景は害虫と類似した色とテクスチャを持ち、正確な特徴抽出を阻害し、害虫識別を困難にする。
害虫識別の鍵は、関心領域(ROI)を検出し、注意と差別的学習のためにそれらをより良いものに変換できるモデルを作成することである。
これらの問題に対処するため、マルチスケールのクロスアテンション融合によるROIの生成と更新、複雑なバックグラウンドやスケールの問題に対して高い堅牢性を実現する方法について検討する。
そこで我々は,新しいroi対応マルチスケールクロスアテンションビジョントランスフォーマ(roi-vit)を提案する。
提案されたroi-vitは、ペストイメージとroiマップの入力として異なる種類のマップを取るペストとroiブランチと呼ばれる2つのブランチを使用して設計されている。
このようなROIマップをレンダリングするために、ROIジェネレータはソフトセグメンテーションとクラスアクティベーションマップを使用して構築され、ROI-ViTバックボーンに統合される。
さらに、二重分岐では、補足的特徴融合とマルチスケール階層は、新しいマルチスケールのクロスアテンション融合によって実現される。
pestブランチからのクラストークンは、roiブランチからのパッチトークンと交換される。
実験の結果,提案したROI-ViTはIP102,D0,SauTegのペストデータセットに対して81.81%,99.64%,84.66%を達成し,MViT,PVT,DeiT,Swin-ViT,EfficientNetといった最先端(SOTA)モデルを上回る結果を得た。
さらに重要なことは、複雑な背景と小さなサイズの害虫画像のみを含む新しい挑戦的データセットIP102(CBSS)において、提案モデルは高い認識精度を維持することができる一方で、他のSOTAモデルのモデルは急激に減少し、我々のモデルは複雑な背景やスケール問題に対してより堅牢であることを示す。
関連論文リスト
- Benchmarking Image Transformers for Prostate Cancer Detection from Ultrasound Data [3.8208601340697386]
超音波画像における前立腺癌(PCa)の分類のための深層学習法は、通常、針トレース領域に沿った小さな領域(ROI)におけるがんを検出するために、畳み込みネットワーク(CNN)を用いている。
マルチ・インスタンス・ラーニング(MIL)を用いて複数のROIから癌を検出するために,トランスフォーマーの認識とCNN特徴抽出器を組み合わせることで,この問題を軽減するためのマルチスケールアプローチが提案されている。
本稿では、ROIスケールおよびマルチスケールの分類のための複数の画像トランスフォーマーアーキテクチャについて検討し、超音波による前立腺癌分類のためのCNNとトランスフォーマーの性能の比較を行った。
論文 参考訳(メタデータ) (2024-03-27T03:39:57Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - ROI-based Deep Image Compression with Swin Transformers [14.044999439481511]
バックグラウンドよりも高品質な関心の領域(ROI)には、ビデオ会議システムを含む多くのアプリケーションがあります。
自動エンコーダネットワークの主ビルディングブロックとして,Swinトランスフォーマーを用いたROIベースの画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-12T22:05:44Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - HUMUS-Net: Hybrid unrolled multi-scale network architecture for
accelerated MRI reconstruction [38.0542877099235]
HUMUS-Netは、暗黙のバイアスと畳み込みの効率を、無ロールでマルチスケールのネットワークにおけるTransformerブロックのパワーと組み合わせたハイブリッドアーキテクチャである。
我々のネットワークは、最も広く公開されているMRIデータセットである高速MRIデータセット上で、新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-03-15T19:26:29Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。