論文の概要: RingMo-lite: A Remote Sensing Multi-task Lightweight Network with
CNN-Transformer Hybrid Framework
- arxiv url: http://arxiv.org/abs/2309.09003v1
- Date: Sat, 16 Sep 2023 14:15:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:51:25.243148
- Title: RingMo-lite: A Remote Sensing Multi-task Lightweight Network with
CNN-Transformer Hybrid Framework
- Title(参考訳): ringmo-lite:cnn-transformerハイブリッドフレームワークによるリモートセンシングマルチタスク軽量ネットワーク
- Authors: Yuelei Wang, Ting Zhang, Liangjin Zhao, Lin Hu, Zhechao Wang, Ziqing
Niu, Peirui Cheng, Kaiqiang Chen, Xuan Zeng, Zhirui Wang, Hongqi Wang and
Xian Sun
- Abstract要約: 本稿では,CNN-Transformerハイブリッドフレームワークを用いたRSマルチタスク軽量ネットワークであるRingMo-liteを提案する。
提案したRingMo-liteは、様々なRS画像解釈タスクにおいて60%以上のパラメータを削減し、ほとんどのシーンで平均精度は2%以下に低下し、類似サイズのモデルと比較してSOTA性能が向上する。
- 参考スコア(独自算出の注目度): 15.273362355253779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, remote sensing (RS) vision foundation models such as RingMo
have emerged and achieved excellent performance in various downstream tasks.
However, the high demand for computing resources limits the application of
these models on edge devices. It is necessary to design a more lightweight
foundation model to support on-orbit RS image interpretation. Existing methods
face challenges in achieving lightweight solutions while retaining
generalization in RS image interpretation. This is due to the complex high and
low-frequency spectral components in RS images, which make traditional single
CNN or Vision Transformer methods unsuitable for the task. Therefore, this
paper proposes RingMo-lite, an RS multi-task lightweight network with a
CNN-Transformer hybrid framework, which effectively exploits the
frequency-domain properties of RS to optimize the interpretation process. It is
combined by the Transformer module as a low-pass filter to extract global
features of RS images through a dual-branch structure, and the CNN module as a
stacked high-pass filter to extract fine-grained details effectively.
Furthermore, in the pretraining stage, the designed frequency-domain masked
image modeling (FD-MIM) combines each image patch's high-frequency and
low-frequency characteristics, effectively capturing the latent feature
representation in RS data. As shown in Fig. 1, compared with RingMo, the
proposed RingMo-lite reduces the parameters over 60% in various RS image
interpretation tasks, the average accuracy drops by less than 2% in most of the
scenes and achieves SOTA performance compared to models of the similar size. In
addition, our work will be integrated into the MindSpore computing platform in
the near future.
- Abstract(参考訳): 近年、RingMoのようなリモートセンシング(RS)ビジョン基盤モデルが登場し、様々な下流タスクで優れたパフォーマンスを実現している。
しかし、コンピューティングリソースに対する高い需要は、エッジデバイスへのこれらのモデルの適用を制限する。
軌道上のrs画像解釈をサポートするために、より軽量な基盤モデルを設計する必要がある。
既存の手法は、rs画像解釈の一般化を維持しながら、軽量なソリューションを実現する上での課題に直面している。
これは、RS画像の複雑な高周波数スペクトル成分のためであり、従来の単一CNNやビジョントランスフォーマーの手法はタスクに適さない。
そこで本研究では,RSの周波数領域特性を効果的に活用して解釈プロセスを最適化する,CNN-Transformerハイブリッドフレームワークを備えたRSマルチタスク軽量ネットワークであるRingMo-liteを提案する。
トランスモジュールを低域通過フィルタとして組み合わせ、デュアルブランチ構造を介してrs画像の全体的特徴を抽出し、cnnモジュールを積み重ねた高域通過フィルタとして、細部の詳細を効果的に抽出する。
さらに、プリトレーニング段階では、設計した周波数領域マスク画像モデリング(fd-mim)が各画像パッチの高周波特性と低周波特性を結合し、rsデータの潜在特徴表現を効果的にキャプチャする。
図1に示すように、RingMo-liteは様々なRS画像解釈タスクにおいて60%以上のパラメータを削減し、ほとんどのシーンで平均精度は2%以下に低下し、類似サイズのモデルと比較してSOTA性能が向上する。
さらに、近い将来、私たちの仕事はMindSporeコンピューティングプラットフォームに統合されます。
関連論文リスト
- OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、公開可能なRSデータセットを収集し、排除、スライシング、復号化によってそれらを処理することで、OptoRS-4Mという高品質なデータセットをキュレートした。
実験により,OCR-4Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - DVMSR: Distillated Vision Mamba for Efficient Super-Resolution [7.551130027327461]
本研究では,ビジョン・マンバと蒸留戦略を組み込んだ新しい軽量画像SRネットワークであるDVMSRを提案する。
提案したDVMSRは,モデルパラメータの観点から,最先端の効率的なSR手法より優れている。
論文 参考訳(メタデータ) (2024-05-05T17:34:38Z) - Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Rolling Shutter Inversion: Bring Rolling Shutter Images to High
Framerate Global Shutter Video [111.08121952640766]
本稿では,RS時相超解問題に対する新しいディープラーニングに基づく解法を提案する。
RSイメージングプロセスの多視点幾何関係を利用して,高フレームレートGS生成を実現する。
提案手法は,高精細で高品質なGS画像系列を生成でき,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-06T16:47:12Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z) - MPRNet: Multi-Path Residual Network for Lightweight Image Super
Resolution [2.3576437999036473]
軽量SRにおけるSOTA性能を向上させる軽量超解像ネットワークを提案する。
提案アーキテクチャには新たなアテンション機構であるTwo-Fold Attention Moduleが含まれており,モデルの表現能力を最大化することができる。
論文 参考訳(メタデータ) (2020-11-09T17:11:15Z) - Real Image Super Resolution Via Heterogeneous Model Ensemble using
GP-NAS [63.48801313087118]
本稿では,高密度スキップ接続を有するディープ残差ネットワークを用いた画像超解像法を提案する。
提案手法は、AIM 2020 Real Image Super-Resolution Challengeの3トラックで1位を獲得した。
論文 参考訳(メタデータ) (2020-09-02T22:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。