論文の概要: Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition
- arxiv url: http://arxiv.org/abs/2112.04223v1
- Date: Wed, 8 Dec 2021 10:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 21:03:32.644916
- Title: Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition
- Title(参考訳): 微粒化認識のためのモバイルネットワークにおけるプログレッシブ多段階インタラクティブトレーニング
- Authors: Zhenxin Wu, Qingliang Chen, Yifeng Liu, Yinqi Zhang, Chengkai Zhu,
Yang Yu
- Abstract要約: 再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 8.727216421226814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained Visual Classification (FGVC) aims to identify objects from
subcategories. It is a very challenging task because of the subtle inter-class
differences. Existing research applies large-scale convolutional neural
networks or visual transformers as the feature extractor, which is extremely
computationally expensive. In fact, real-world scenarios of fine-grained
recognition often require a more lightweight mobile network that can be
utilized offline. However, the fundamental mobile network feature extraction
capability is weaker than large-scale models. In this paper, based on the
lightweight MobilenetV2, we propose a Progressive Multi-Stage Interactive
training method with a Recursive Mosaic Generator (RMG-PMSI). First, we propose
a Recursive Mosaic Generator (RMG) that generates images with different
granularities in different phases. Then, the features of different stages pass
through a Multi-Stage Interaction (MSI) module, which strengthens and
complements the corresponding features of different stages. Finally, using the
progressive training (P), the features extracted by the model in different
stages can be fully utilized and fused with each other. Experiments on three
prestigious fine-grained benchmarks show that RMG-PMSI can significantly
improve the performance with good robustness and transferability.
- Abstract(参考訳): FGVCは、サブカテゴリからオブジェクトを識別することを目的としている。
クラス間の微妙な違いのため、非常に難しいタスクです。
既存の研究では、大規模畳み込みニューラルネットワークや視覚トランスフォーマーを特徴抽出器として採用している。
実際、現実世界の細かい認識のシナリオは、オフラインで利用できるより軽量なモバイルネットワークを必要とすることが多い。
しかし,モバイルネットワークの基本的な特徴抽出能力は,大規模モデルよりも弱い。
本稿では,ライトウェイトなMobilenetV2に基づいて,Recursive Mosaic Generator (RMG-PMSI) を用いたProgressive Multi-Stage Interactive Training法を提案する。
まず,異なる位相の粒度を持つ画像を生成する再帰的モザイク生成器(rmg)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
最後に、プログレッシブトレーニング(P)を用いて、異なる段階のモデルによって抽出された特徴を完全に活用し、融合させることができる。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
関連論文リスト
- Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。
クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文 参考訳(メタデータ) (2024-09-09T14:12:23Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。
マルチリニア演算子のみに依存するMONetを提案する。
論文 参考訳(メタデータ) (2024-01-31T16:52:19Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - (M)SLAe-Net: Multi-Scale Multi-Level Attention embedded Network for
Retinal Vessel Segmentation [0.0]
マルチステージ処理の課題に対処するため,マルチスケールでマルチレベルなCNNアーキテクチャ((M)SLAe-Net)を提案する。
我々は、複数のスケールとネットワークの複数のレベルの特徴を抽出することで、我々のモデルが局所的およびグローバル的特徴を全体的に抽出することを可能にする。
D-DPPモジュールは細管に効率よくタスク特異的な損失機能を持たせることで,クロスデータ性能の向上を実現した。
論文 参考訳(メタデータ) (2021-09-05T14:29:00Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - MGML: Multi-Granularity Multi-Level Feature Ensemble Network for Remote
Sensing Scene Classification [15.856162817494726]
本稿では,多言語多層特徴アンサンブルネットワーク(MGML-FENet)を提案する。
提案ネットワークは、従来の最新(SOTA)ネットワークよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-29T02:18:11Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。