論文の概要: MASK-CNN-Transformer For Real-Time Multi-Label Weather Recognition
- arxiv url: http://arxiv.org/abs/2304.14857v2
- Date: Sat, 19 Aug 2023 05:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:04:58.087814
- Title: MASK-CNN-Transformer For Real-Time Multi-Label Weather Recognition
- Title(参考訳): リアルタイムマルチラベル気象認識のためのMASK-CNN変換器
- Authors: Shengchao Chen, Ting Shu, Huan Zhao, Yuan Yan Tang
- Abstract要約: 本稿では,新しいマルチラベル気象認識モデルを提案する。
MASK-Convolutional Neural Network-Transformer (MASK-CT) と呼ばれる提案モデルは、Transformer、Convolutional Process、MASKメカニズムに基づいている。
MASK-CTの高速動的リアルタイム気象認識能力の評価を行った。
- 参考スコア(独自算出の注目度): 24.979688225637602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weather recognition is an essential support for many practical life
applications, including traffic safety, environment, and meteorology. However,
many existing related works cannot comprehensively describe weather conditions
due to their complex co-occurrence dependencies. This paper proposes a novel
multi-label weather recognition model considering these dependencies. The
proposed model called MASK-Convolutional Neural Network-Transformer (MASK-CT)
is based on the Transformer, the convolutional process, and the MASK mechanism.
The model employs multiple convolutional layers to extract features from
weather images and a Transformer encoder to calculate the probability of each
weather condition based on the extracted features. To improve the
generalization ability of MASK-CT, a MASK mechanism is used during the training
phase. The effect of the MASK mechanism is explored and discussed. The Mask
mechanism randomly withholds some information from one-pair training instances
(one image and its corresponding label). There are two types of MASK methods.
Specifically, MASK-I is designed and deployed on the image before feeding it
into the weather feature extractor and MASK-II is applied to the image label.
The Transformer encoder is then utilized on the randomly masked image features
and labels. The experimental results from various real-world weather
recognition datasets demonstrate that the proposed MASK-CT model outperforms
state-of-the-art methods. Furthermore, the high-speed dynamic real-time weather
recognition capability of the MASK-CT is evaluated.
- Abstract(参考訳): 天気予報は、交通安全、環境、気象学など、多くの実用的用途に欠かせない支援である。
しかし、既存の多くの関連著作は、その複雑な共起依存関係のため、気象条件を包括的に記述できない。
本稿では,これらの依存性を考慮した新しいマルチラベル気象認識モデルを提案する。
MASK-Convolutional Neural Network-Transformer (MASK-CT) と呼ばれる提案モデルは、Transformer、Convolutional Process、MASKメカニズムに基づいている。
このモデルは複数の畳み込み層を用いて気象画像から特徴を抽出し、トランスエンコーダを用いて各気象条件の確率を抽出した特徴量に基づいて算出する。
MASK-CTの一般化能力を向上させるため、トレーニング段階でMASK機構を使用する。
また,MASK機構の効果について検討した。
Maskメカニズムは、ワンペアトレーニングインスタンス(1つの画像とその対応するラベル)からランダムに情報を保持する。
MASKには2種類の方法がある。
具体的には、気象特徴抽出器に供給する前に、画像上にMASK-Iを設計して展開し、画像ラベルにMASK-IIを適用する。
Transformerエンコーダは、ランダムにマスクされた画像の特徴とラベルに使用される。
各種実世界の天気予報データセットによる実験結果から,提案したMASK-CTモデルは最先端の手法よりも優れていることが示された。
さらに,MASK-CTの高速動的リアルタイム気象認識能力の評価を行った。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - FALCON: Frequency Adjoint Link with CONtinuous Density Mask for Fast Single Image Dehazing [8.703680337470285]
この研究は、品質と速度の両面で最先端の性能を達成するシングルイメージデハージングシステムであるFALCONを紹介する。
本研究では, 連続密度マスクを用いた大気散乱モデルに基づいて, 基礎となるヘイズ分布を利用する。
複数の最先端手法とアブレーション解析を含む実験は、FALCONの脱ハージング品質と速度の両方における異常な性能を実証している。
論文 参考訳(メタデータ) (2024-07-01T05:16:26Z) - Exploring the Application of Large-scale Pre-trained Models on Adverse
Weather Removal [97.53040662243768]
ネットワークが異なる気象条件を適応的に処理できるようにするために,CLIP埋め込みモジュールを提案する。
このモジュールは、CLIP画像エンコーダによって抽出されたサンプル特定気象と、パラメータセットによって学習された分布特定情報を統合する。
論文 参考訳(メタデータ) (2023-06-15T10:06:13Z) - Masked Pre-Training of Transformers for Histology Image Analysis [4.710921988115685]
デジタル病理学では、がん診断や予後予測などの応用に全スライド画像(WSI)が広く用いられている。
パッチ間の空間的関係を保ちながら、WSIの広い領域を符号化するための有望な方法として、ビジュアルトランスフォーマーモデルが登場した。
本稿では,この問題を解決するためにラベル付きデータを使わずにトランスフォーマーモデルをトレーニングするためのプレテキストタスクを提案する。
我々のモデルであるMaskHITは、トランスフォーマー出力を用いて、マスクしたパッチを再構築し、それらの位置と視覚的特徴に基づいて代表的組織学的特徴を学習する。
論文 参考訳(メタデータ) (2023-04-14T23:56:49Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。