論文の概要: PanAdapter: Two-Stage Fine-Tuning with Spatial-Spectral Priors Injecting for Pansharpening
- arxiv url: http://arxiv.org/abs/2409.06980v1
- Date: Wed, 11 Sep 2024 03:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:47:11.604730
- Title: PanAdapter: Two-Stage Fine-Tuning with Spatial-Spectral Priors Injecting for Pansharpening
- Title(参考訳): PanAdapter:2段階ファインチューニングと空間スペクトルプリミティブのパンハーペン注入
- Authors: RuoCheng Wu, ZiEn Zhang, ShangQi Deng, YuLe Duan, LiangJian Deng,
- Abstract要約: 本研究では,パンシャーピングタスクにおける小規模データセットの問題を軽減するため,効率的な微調整手法であるパンアダプタを提案する。
事前学習したCNNモデルを微調整し、提案したLPEモジュールにより2つのスケールでタスク固有の先行情報を抽出する。
提案手法は,事前学習した画像復元モデルの利点を生かし,いくつかのベンチマークパンシャーピングデータセットで最先端のパフォーマンスを実現することができることを示す。
- 参考スコア(独自算出の注目度): 8.916207546866048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pansharpening is a challenging image fusion task that involves restoring images using two different modalities: low-resolution multispectral images (LRMS) and high-resolution panchromatic (PAN). Many end-to-end specialized models based on deep learning (DL) have been proposed, yet the scale and performance of these models are limited by the size of dataset. Given the superior parameter scales and feature representations of pre-trained models, they exhibit outstanding performance when transferred to downstream tasks with small datasets. Therefore, we propose an efficient fine-tuning method, namely PanAdapter, which utilizes additional advanced semantic information from pre-trained models to alleviate the issue of small-scale datasets in pansharpening tasks. Specifically, targeting the large domain discrepancy between image restoration and pansharpening tasks, the PanAdapter adopts a two-stage training strategy for progressively adapting to the downstream task. In the first stage, we fine-tune the pre-trained CNN model and extract task-specific priors at two scales by proposed Local Prior Extraction (LPE) module. In the second stage, we feed the extracted two-scale priors into two branches of cascaded adapters respectively. At each adapter, we design two parameter-efficient modules for allowing the two branches to interact and be injected into the frozen pre-trained VisionTransformer (ViT) blocks. We demonstrate that by only training the proposed LPE modules and adapters with a small number of parameters, our approach can benefit from pre-trained image restoration models and achieve state-of-the-art performance in several benchmark pansharpening datasets. The code will be available soon.
- Abstract(参考訳): Pansharpeningは、低分解能マルチスペクトル画像(LRMS)と高分解能パンクロマチック画像(PAN)の2つの異なるモードを用いて画像を復元する、困難な画像融合タスクである。
ディープラーニング(DL)に基づくエンド・ツー・エンドの特化モデルが数多く提案されているが、これらのモデルのスケールと性能はデータセットのサイズによって制限されている。
事前訓練されたモデルの優れたパラメータスケールと特徴表現を考えると、小さなデータセットで下流タスクに転送された場合、優れたパフォーマンスを示す。
そこで本研究では,パンシャーピングタスクにおける小規模データセットの問題を軽減するために,事前学習したモデルからの高度なセマンティック情報を活用する,効率的な微調整手法であるPanAdapterを提案する。
具体的には、イメージ復元とパンシャーピングタスクの間の大きなドメインの相違をターゲットとして、PanAdapterでは、下流タスクに段階的に適応する2段階のトレーニング戦略を採用している。
第1段階では、事前学習したCNNモデルを微調整し、提案したLPEモジュールを用いてタスク固有の事前情報を2つのスケールで抽出する。
第2段階では,抽出した2種類の前駆体をそれぞれカスケードアダプタの2つの枝に供給する。
各アダプタでは,2つの分岐を相互作用させ,凍結したViTブロックに注入するためのパラメータ効率のよい2つのモジュールを設計する。
提案するLPEモジュールとアダプタを少数のパラメータでのみトレーニングすることにより,事前学習した画像復元モデルの利点を生かし,いくつかのベンチマークパンシャーピングデータセットで最先端のパフォーマンスを実現することができることを示す。
コードはまもなく利用可能になる。
関連論文リスト
- Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation [31.023236232633213]
近年の適応は、コントラストビジョン・ランゲージ事前訓練の低ショット能力を高めることができる。
本稿では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。
提案手法を,13のデータセットを持つ3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-07-19T08:34:23Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - PAD: Self-Supervised Pre-Training with Patchwise-Scale Adapter for
Infrared Images [45.507517332100804]
RGB画像に対する自己教師付き学習(SSL)は大きな成功を収めているが、赤外線画像に対するSSLの研究は限られている。
一般的な事前トレーニングタスクを描画する非非同期赤外線画像は、効果が低い。
きめ細かいテクスチャの不足は、一般的な画像の特徴を学ぶのを特に困難にしている。
論文 参考訳(メタデータ) (2023-12-13T14:57:28Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。