Fugu-MT 論文翻訳(概要): Progressive Multi-stage Interactive Training in Mobile Network for Fine-grained Recognition

論文の概要: Progressive Multi-stage Interactive Training in Mobile Network for Fine-grained Recognition

arxiv url: http://arxiv.org/abs/2112.04223v1
Date: Wed, 8 Dec 2021 10:50:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-09 21:03:32.644916
Title: Progressive Multi-stage Interactive Training in Mobile Network for Fine-grained Recognition
Title（参考訳）: 微粒化認識のためのモバイルネットワークにおけるプログレッシブ多段階インタラクティブトレーニング
Authors: Zhenxin Wu, Qingliang Chen, Yifeng Liu, Yinqi Zhang, Chengkai Zhu, Yang Yu
Abstract要約: 再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。 RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
参考スコア（独自算出の注目度）: 8.727216421226814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-grained Visual Classification (FGVC) aims to identify objects from subcategories. It is a very challenging task because of the subtle inter-class differences. Existing research applies large-scale convolutional neural networks or visual transformers as the feature extractor, which is extremely computationally expensive. In fact, real-world scenarios of fine-grained recognition often require a more lightweight mobile network that can be utilized offline. However, the fundamental mobile network feature extraction capability is weaker than large-scale models. In this paper, based on the lightweight MobilenetV2, we propose a Progressive Multi-Stage Interactive training method with a Recursive Mosaic Generator (RMG-PMSI). First, we propose a Recursive Mosaic Generator (RMG) that generates images with different granularities in different phases. Then, the features of different stages pass through a Multi-Stage Interaction (MSI) module, which strengthens and complements the corresponding features of different stages. Finally, using the progressive training (P), the features extracted by the model in different stages can be fully utilized and fused with each other. Experiments on three prestigious fine-grained benchmarks show that RMG-PMSI can significantly improve the performance with good robustness and transferability.
Abstract（参考訳）: FGVCは、サブカテゴリからオブジェクトを識別することを目的としている。クラス間の微妙な違いのため、非常に難しいタスクです。既存の研究では、大規模畳み込みニューラルネットワークや視覚トランスフォーマーを特徴抽出器として採用している。実際、現実世界の細かい認識のシナリオは、オフラインで利用できるより軽量なモバイルネットワークを必要とすることが多い。しかし,モバイルネットワークの基本的な特徴抽出能力は,大規模モデルよりも弱い。本稿では,ライトウェイトなMobilenetV2に基づいて,Recursive Mosaic Generator (RMG-PMSI) を用いたProgressive Multi-Stage Interactive Training法を提案する。まず,異なる位相の粒度を持つ画像を生成する再帰的モザイク生成器(rmg)を提案する。次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。最後に、プログレッシブトレーニング(P)を用いて、異なる段階のモデルによって抽出された特徴を完全に活用し、融合させることができる。 RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。

関連論文リスト

An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文参考訳（メタデータ） (2024-09-09T14:12:23Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。 SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文参考訳（メタデータ） (2024-04-22T17:56:09Z)
Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。マルチリニア演算子のみに依存するMONetを提案する。
論文参考訳（メタデータ） (2024-01-31T16:52:19Z)
Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文参考訳（メタデータ） (2023-10-22T02:27:02Z)
Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。 CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。 HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文参考訳（メタデータ） (2022-03-31T11:18:41Z)
Multi-scale and Cross-scale Contrastive Learning for Semantic Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文参考訳（メタデータ） (2022-03-25T01:24:24Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
(M)SLAe-Net: Multi-Scale Multi-Level Attention embedded Network for Retinal Vessel Segmentation [0.0]
マルチステージ処理の課題に対処するため,マルチスケールでマルチレベルなCNNアーキテクチャ((M)SLAe-Net)を提案する。我々は、複数のスケールとネットワークの複数のレベルの特徴を抽出することで、我々のモデルが局所的およびグローバル的特徴を全体的に抽出することを可能にする。 D-DPPモジュールは細管に効率よくタスク特異的な損失機能を持たせることで,クロスデータ性能の向上を実現した。
論文参考訳（メタデータ） (2021-09-05T14:29:00Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
MGML: Multi-Granularity Multi-Level Feature Ensemble Network for Remote Sensing Scene Classification [15.856162817494726]
本稿では,多言語多層特徴アンサンブルネットワーク(MGML-FENet)を提案する。提案ネットワークは、従来の最新(SOTA)ネットワークよりも優れたパフォーマンスを実現します。
論文参考訳（メタデータ） (2020-12-29T02:18:11Z)
Fine-Grained Visual Classification via Progressive Multi-Granularity Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文参考訳（メタデータ） (2020-03-08T19:27:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。