論文の概要: Task-Driven Prompt Learning: A Joint Framework for Multi-modal Cloud Removal and Segmentation
- arxiv url: http://arxiv.org/abs/2601.12052v1
- Date: Sat, 17 Jan 2026 13:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.439903
- Title: Task-Driven Prompt Learning: A Joint Framework for Multi-modal Cloud Removal and Segmentation
- Title(参考訳): Task-Driven Prompt Learning: マルチモーダルクラウド削除とセグメンテーションのための統合フレームワーク
- Authors: Zaiyan Zhang, Jie Li, Shaowei Shi, Qiangqiang Yuan,
- Abstract要約: TDP-CRはタスク駆動のフレームワークで、クラウド削除と土地被覆のセグメンテーションを共同で行う。
我々のアプローチの中心は、雲の厚さと空間の不確かさを符号化する学習可能な劣化プロンプトを利用するPrompt-Guided Fusionメカニズムである。
LuojiaSET-OSFCRデータセットの実験は、我々のフレームワークの優位性を実証している。
- 参考スコア(独自算出の注目度): 11.468907022707013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical remote sensing imagery is indispensable for Earth observation, yet persistent cloud occlusion limits its downstream utility. Most cloud removal (CR) methods are optimized for low-level fidelity and can over-smooth textures and boundaries that are critical for analysis-ready data (ARD), leading to a mismatch between visually plausible restoration and semantic utility. To bridge this gap, we propose TDP-CR, a task-driven multimodal framework that jointly performs cloud removal and land-cover segmentation. Central to our approach is a Prompt-Guided Fusion (PGF) mechanism, which utilizes a learnable degradation prompt to encode cloud thickness and spatial uncertainty. By combining global channel context with local prompt-conditioned spatial bias, PGF adaptively integrates Synthetic Aperture Radar (SAR) information only where optical data is corrupted. We further introduce a parameter-efficient two-phase training strategy that decouples reconstruction and semantic representation learning. Experiments on the LuojiaSET-OSFCR dataset demonstrate the superiority of our framework: TDP-CR surpasses heavy state-of-the-art baselines by 0.18 dB in PSNR while using only 15\% of the parameters, and achieves a 1.4\% improvement in mIoU consistently against multi-task competitors, effectively delivering analysis-ready data.
- Abstract(参考訳): 光リモートセンシング画像は地球観測には不可欠であるが、雲の閉鎖は下流での利用を制限している。
ほとんどのクラウド除去(CR)法は、低レベルの忠実度に最適化されており、解析可能なデータ(ARD)にとって重要な過度なスムースなテクスチャや境界が可能であるため、視覚的に妥当な復元とセマンティックユーティリティのミスマッチにつながる。
このギャップを埋めるため,タスク駆動型マルチモーダルフレームワークであるTDP-CRを提案する。
我々のアプローチの中心は、学習可能な劣化プロンプトを用いて雲の厚さと空間の不確かさを符号化するPGF(Prompt-Guided Fusion)機構である。
グローバルチャネルコンテキストと局所的なプロンプト条件の空間バイアスを組み合わせることで、PGFは光データが破損した場合にのみ、SAR(Synthetic Aperture Radar)情報を適応的に統合する。
さらに、再構成と意味表現学習を分離するパラメータ効率の2相学習戦略を導入する。
TDP-CRは、パラメータの15倍しか使っていないPSNRにおいて、最先端のベースラインを0.18dB超過し、マルチタスクの競合相手に対して一貫してmIoUを1.4倍改善し、分析可能なデータを効果的に提供します。
関連論文リスト
- TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing [0.0]
オートエンコーダは、デノナイズと再構築のための自然なフレームワークを提供するが、そのパフォーマンスは、現実の困難な条件下で低下する。
テキスト先行情報と多視点画像からの単眼深度マップとLiDAR点雲を統合し,ロバスト性を向上させるクロスアテンションオートエンコーダであるTriFusion-AEを提案する。
このモデルは,CNNベースのオートエンコーダが崩壊する強敵攻撃と重騒音下で,より堅牢な再構築を実現する。
論文 参考訳(メタデータ) (2025-09-23T07:37:28Z) - Evaluating the Efficiency of Latent Spaces via the Coupling-Matrix [0.5013248430919224]
本稿では,次元間の依存関係を直接定量化する冗長指数rho(C)を導入する。
低rho(C)は高い分類精度または低い再構成誤差を確実に予測する一方、高い冗長性は性能崩壊と関連付けられる。
木構造型Parzen Estimator (TPE) は低ロー領域を優先的に探索し,rho(C) がニューラルアーキテクチャ探索を誘導し,冗長性を考慮した正規化ターゲットとして機能することを示唆する。
論文 参考訳(メタデータ) (2025-09-08T03:36:47Z) - Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction [13.897013242536849]
全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-03T08:01:30Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Multi-scale Restoration of Missing Data in Optical Time-series Images with Masked Spatial-Temporal Attention Network [0.6675733925327885]
リモートセンシング画像に欠落した値を出力する既存の方法は、補助情報を完全に活用できない。
本稿では,時系列リモートセンシング画像の再構成のためのMS2という,深層学習に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T09:05:05Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Unpaired Adversarial Learning for Single Image Deraining with Rain-Space
Contrastive Constraints [61.40893559933964]
我々は,CDR-GAN という名称の GAN フレームワークにおいて,比較学習手法により,経験者の相互特性を探索する有効な非経験的 SID 手法を開発した。
提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の非対効果のデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2021-09-07T10:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。