論文の概要: MASK-CNN-Transformer For Real-Time Multi-Label Weather Recognition
- arxiv url: http://arxiv.org/abs/2304.14857v2
- Date: Sat, 19 Aug 2023 05:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:04:58.087814
- Title: MASK-CNN-Transformer For Real-Time Multi-Label Weather Recognition
- Title(参考訳): リアルタイムマルチラベル気象認識のためのMASK-CNN変換器
- Authors: Shengchao Chen, Ting Shu, Huan Zhao, Yuan Yan Tang
- Abstract要約: 本稿では,新しいマルチラベル気象認識モデルを提案する。
MASK-Convolutional Neural Network-Transformer (MASK-CT) と呼ばれる提案モデルは、Transformer、Convolutional Process、MASKメカニズムに基づいている。
MASK-CTの高速動的リアルタイム気象認識能力の評価を行った。
- 参考スコア(独自算出の注目度): 24.979688225637602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weather recognition is an essential support for many practical life
applications, including traffic safety, environment, and meteorology. However,
many existing related works cannot comprehensively describe weather conditions
due to their complex co-occurrence dependencies. This paper proposes a novel
multi-label weather recognition model considering these dependencies. The
proposed model called MASK-Convolutional Neural Network-Transformer (MASK-CT)
is based on the Transformer, the convolutional process, and the MASK mechanism.
The model employs multiple convolutional layers to extract features from
weather images and a Transformer encoder to calculate the probability of each
weather condition based on the extracted features. To improve the
generalization ability of MASK-CT, a MASK mechanism is used during the training
phase. The effect of the MASK mechanism is explored and discussed. The Mask
mechanism randomly withholds some information from one-pair training instances
(one image and its corresponding label). There are two types of MASK methods.
Specifically, MASK-I is designed and deployed on the image before feeding it
into the weather feature extractor and MASK-II is applied to the image label.
The Transformer encoder is then utilized on the randomly masked image features
and labels. The experimental results from various real-world weather
recognition datasets demonstrate that the proposed MASK-CT model outperforms
state-of-the-art methods. Furthermore, the high-speed dynamic real-time weather
recognition capability of the MASK-CT is evaluated.
- Abstract(参考訳): 天気予報は、交通安全、環境、気象学など、多くの実用的用途に欠かせない支援である。
しかし、既存の多くの関連著作は、その複雑な共起依存関係のため、気象条件を包括的に記述できない。
本稿では,これらの依存性を考慮した新しいマルチラベル気象認識モデルを提案する。
MASK-Convolutional Neural Network-Transformer (MASK-CT) と呼ばれる提案モデルは、Transformer、Convolutional Process、MASKメカニズムに基づいている。
このモデルは複数の畳み込み層を用いて気象画像から特徴を抽出し、トランスエンコーダを用いて各気象条件の確率を抽出した特徴量に基づいて算出する。
MASK-CTの一般化能力を向上させるため、トレーニング段階でMASK機構を使用する。
また,MASK機構の効果について検討した。
Maskメカニズムは、ワンペアトレーニングインスタンス(1つの画像とその対応するラベル)からランダムに情報を保持する。
MASKには2種類の方法がある。
具体的には、気象特徴抽出器に供給する前に、画像上にMASK-Iを設計して展開し、画像ラベルにMASK-IIを適用する。
Transformerエンコーダは、ランダムにマスクされた画像の特徴とラベルに使用される。
各種実世界の天気予報データセットによる実験結果から,提案したMASK-CTモデルは最先端の手法よりも優れていることが示された。
さらに,MASK-CTの高速動的リアルタイム気象認識能力の評価を行った。
関連論文リスト
- Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing [16.683132793313693]
Masked AutoEncoder (MAE) はリモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
本研究では,多スペクトル画像に対する向き付けされた粒度(HOG)と正規化差分指標(NDI)の組合せを再構成し,SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
論文 参考訳(メタデータ) (2023-10-28T09:43:13Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Masked Pre-Training of Transformers for Histology Image Analysis [4.710921988115685]
デジタル病理学では、がん診断や予後予測などの応用に全スライド画像(WSI)が広く用いられている。
パッチ間の空間的関係を保ちながら、WSIの広い領域を符号化するための有望な方法として、ビジュアルトランスフォーマーモデルが登場した。
本稿では,この問題を解決するためにラベル付きデータを使わずにトランスフォーマーモデルをトレーニングするためのプレテキストタスクを提案する。
我々のモデルであるMaskHITは、トランスフォーマー出力を用いて、マスクしたパッチを再構築し、それらの位置と視覚的特徴に基づいて代表的組織学的特徴を学習する。
論文 参考訳(メタデータ) (2023-04-14T23:56:49Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。