論文の概要: Cross-Modal Pre-Aligned Method with Global and Local Information for Remote-Sensing Image and Text Retrieval
- arxiv url: http://arxiv.org/abs/2411.14704v1
- Date: Fri, 22 Nov 2024 03:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:24.743689
- Title: Cross-Modal Pre-Aligned Method with Global and Local Information for Remote-Sensing Image and Text Retrieval
- Title(参考訳): リモートセンシング画像とテキスト検索のためのグローバル・ローカル情報を用いたクロスモーダル事前調整手法
- Authors: Zengbao Sun, Ming Zhao, Gaorui Liu, André Kaup,
- Abstract要約: グローバルな情報とローカルな情報を活用するクロスモーダル・プレアライメント手法であるCMPAGLを提案する。
我々のGswin変換ブロックは、ローカルウィンドウの自己アテンションとグローバルローカルウィンドウのクロスアテンションを組み合わせて、マルチスケールな特徴をキャプチャする。
RSICDとRSITMDを含む4つのデータセットの実験はCMPAGLの有効性を検証する。
- 参考スコア(独自算出の注目度): 16.995114000869833
- License:
- Abstract: Remote sensing cross-modal text-image retrieval (RSCTIR) has gained attention for its utility in information mining. However, challenges remain in effectively integrating global and local information due to variations in remote sensing imagery and ensuring proper feature pre-alignment before modal fusion, which affects retrieval accuracy and efficiency. To address these issues, we propose CMPAGL, a cross-modal pre-aligned method leveraging global and local information. Our Gswin transformer block combines local window self-attention and global-local window cross-attention to capture multi-scale features. A pre-alignment mechanism simplifies modal fusion training, improving retrieval performance. Additionally, we introduce a similarity matrix reweighting (SMR) algorithm for reranking, and enhance the triplet loss function with an intra-class distance term to optimize feature learning. Experiments on four datasets, including RSICD and RSITMD, validate CMPAGL's effectiveness, achieving up to 4.65% improvement in R@1 and 2.28% in mean Recall (mR) over state-of-the-art methods.
- Abstract(参考訳): リモートセンシング クロスモーダルテキスト画像検索 (RSCTIR) は情報マイニングにおける有用性に注目されている。
しかし、リモートセンシング画像のばらつきによるグローバルおよびローカル情報の効果的な統合や、検索精度と効率に影響を及ぼすモーダル融合前の適切な特徴事前調整の確保が課題となっている。
これらの課題に対処するために,グローバルおよびローカル情報を活用した相互対応型事前整合法CMPAGLを提案する。
我々のGswin変換ブロックは、ローカルウィンドウの自己アテンションとグローバルローカルウィンドウのクロスアテンションを組み合わせて、マルチスケールな特徴をキャプチャする。
事前調整機構は、モーダル融合訓練を簡素化し、検索性能を向上させる。
さらに、類似度行列再重み付け(SMR)アルゴリズムを導入し、三重項損失関数をクラス内距離項で拡張し、特徴学習を最適化する。
RSICDとRSITMDを含む4つのデータセットの実験では、CMPAGLの有効性が検証され、最先端の手法よりもR@1が4.65%改善し、平均2.28%がリコール(mR)された。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - FuseFormer: A Transformer for Visual and Thermal Image Fusion [3.6064695344878093]
本稿では,従来の評価指標を損失関数として用いた場合の限界を緩和する画像融合問題に対する新しい手法を提案する。
提案手法は,局所的およびグローバルなコンテキスト情報に順応的に対処するトランスフォーマーベースのマルチスケール融合戦略を統合する。
提案手法は,新たな損失関数の定義とともに,他の競合融合アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-01T19:40:39Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - Dual-Flow Transformation Network for Deformable Image Registration with
Region Consistency Constraint [95.30864269428808]
現在のディープラーニング(DL)ベースの画像登録アプローチは、畳み込みニューラルネットワークを利用して、ある画像から別の画像への空間変換を学習する。
一対のイメージ内のROIの類似性を最大化する領域整合性制約を持つ新しいデュアルフロー変換ネットワークを提案する。
4つの公開3次元MRIデータセットを用いた実験により,提案手法は精度と一般化において最高の登録性能が得られることを示した。
論文 参考訳(メタデータ) (2021-12-04T05:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。