論文の概要: CAT: A Conditional Adaptation Tailor for Efficient and Effective Instance-Specific Pansharpening on Real-World Data
- arxiv url: http://arxiv.org/abs/2504.10242v1
- Date: Mon, 14 Apr 2025 14:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:27.271158
- Title: CAT: A Conditional Adaptation Tailor for Efficient and Effective Instance-Specific Pansharpening on Real-World Data
- Title(参考訳): CAT: 実世界のデータに基づく効率的かつ効果的なインスタンス特化パンシャーペンのための条件付き適応タイラー
- Authors: Tianyu Xin, Jin-Liang Xiao, Zeyu Xia, Shan Yin, Liang-Jian Deng,
- Abstract要約: 本稿では、特定の入力インスタンスに適応し、トレーニングと推論の両方を短時間で完了する効率的なフレームワークを提案する。
本手法は,512times512$イメージのトレーニングと推論の両方を,textit0.4 seconds$で実現する。
- 参考スコア(独自算出の注目度): 7.471505633354803
- License:
- Abstract: Pansharpening is a crucial remote sensing technique that fuses low-resolution multispectral (LRMS) images with high-resolution panchromatic (PAN) images to generate high-resolution multispectral (HRMS) imagery. Although deep learning techniques have significantly advanced pansharpening, many existing methods suffer from limited cross-sensor generalization and high computational overhead, restricting their real-time applications. To address these challenges, we propose an efficient framework that quickly adapts to a specific input instance, completing both training and inference in a short time. Our framework splits the input image into multiple patches, selects a subset for unsupervised CAT training, and then performs inference on all patches, stitching them into the final output. The CAT module, integrated between the feature extraction and channel transformation stages of a pre-trained network, tailors the fused features and fixes the parameters for efficient inference, generating improved results. Our approach offers two key advantages: (1) $\textit{Improved Generalization Ability}$: by mitigating cross-sensor degradation, our model--although pre-trained on a specific dataset--achieves superior performance on datasets captured by other sensors; (2) $\textit{Enhanced Computational Efficiency}$: the CAT-enhanced network can swiftly adapt to the test sample using the single LRMS-PAN pair input, without requiring extensive large-scale data retraining. Experiments on the real-world data from WorldView-3 and WorldView-2 datasets demonstrate that our method achieves state-of-the-art performance on cross-sensor real-world data, while achieving both training and inference of $512\times512$ image within $\textit{0.4 seconds}$ and $4000\times4000$ image within $\textit{3 seconds}$ at the fastest setting on a commonly used RTX 3090 GPU.
- Abstract(参考訳): パンシャーペンは、高分解能マルチスペクトル(LRMS)画像と高分解能パンクロマティック(PAN)画像とを融合して高分解能マルチスペクトル(HRMS)画像を生成する重要なリモートセンシング技術である。
深層学習技術はパンシャーペンを著しく進歩させたが、多くの既存手法はクロスセンサーの一般化と高い計算オーバーヘッドに悩まされており、リアルタイムの応用が制限されている。
これらの課題に対処するため、我々は特定の入力インスタンスに迅速に適応し、トレーニングと推論の両方を短時間で完了する効率的なフレームワークを提案する。
我々のフレームワークは入力画像を複数のパッチに分割し、教師なしのCATトレーニングのサブセットを選択し、すべてのパッチに対して推論を行い、最終的な出力に縫合する。
CATモジュールは、事前訓練されたネットワークの機能抽出とチャネル変換の段階を統合し、融合した特徴を調整し、効率的な推論のためにパラメータを修正し、改善された結果を生成する。
このアプローチには2つの大きなメリットがある。(1) $\textit{Improved Generalization Ability}$: クロスセンサー劣化を緩和することで、モデルが特定のデータセットで事前トレーニングされるが、(2) $\textit{Enhanced Computational efficiency}$: CAT拡張ネットワークは、大規模なデータリトレーニングを必要とせず、単一のLRMS-PANペア入力を使用してテストサンプルに迅速に適応することができる。
WorldView-3とWorldView-2のデータセットから得られた実世界のデータに対する実験は、我々の手法がクロスセンサーの実世界のデータに対して最先端のパフォーマンスを達成する一方で、一般的なRTX 3090 GPU上での最速設定で、$\textit{0.4 seconds}$および$4000\times4000$イメージ内の512\times512$イメージのトレーニングと推論の両方を達成していることを示している。
関連論文リスト
- Snuffy: Efficient Whole Slide Image Classifier [1.020994600344265]
Snuffy はスパース変圧器をベースとした新しい MIL プール方式であり,性能低下を軽減し,事前学習を制限した。
Snuffy が CAMELYON16 および TCGA Lung 癌データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-08-15T16:59:15Z) - DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual
Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。
NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文 参考訳(メタデータ) (2022-12-02T13:55:41Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation [0.0]
多くのアプリケーションは、安価なハードウェアや組み込みハードウェアの大規模な入力解像度よりも高速な推論を必要とする。
マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。
本稿では,Cityscapes,Vistas,COCO,BSB-Aerialデータセットについてパノラマ実験を行った。
論文 参考訳(メタデータ) (2022-03-15T13:47:40Z) - Real-time Face Mask Detection in Video Data [0.5371337604556311]
本稿では,リアルタイムビデオストリームから正解と誤用を識別可能な,堅牢なディープラーニングパイプラインを提案する。
2つのアプローチを考案し,その性能と実行時間効率を評価した。
論文 参考訳(メタデータ) (2021-05-05T01:03:34Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。