Fugu-MT 論文翻訳(概要): Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information

論文の概要: Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information

arxiv url: http://arxiv.org/abs/2204.09860v1
Date: Thu, 21 Apr 2022 03:18:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-23 01:26:43.182492
Title: Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information
Title（参考訳）: グローバル・ローカル情報に基づくリモートセンシング型クロスモーダルテキスト画像検索
Authors: Zhiqiang Yuan, Wenkai Zhang, Changyuan Tian, Xuee Rong, Zhengyuan Zhang, Hongqi Wang, Kun Fu, and Xian Sun
Abstract要約: リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
参考スコア（独自算出の注目度）: 15.32353270625554
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-modal remote sensing text-image retrieval (RSCTIR) has recently become an urgent research hotspot due to its ability of enabling fast and flexible information extraction on remote sensing (RS) images. However, current RSCTIR methods mainly focus on global features of RS images, which leads to the neglect of local features that reflect target relationships and saliency. In this article, we first propose a novel RSCTIR framework based on global and local information (GaLR), and design a multi-level information dynamic fusion (MIDF) module to efficaciously integrate features of different levels. MIDF leverages local information to correct global information, utilizes global information to supplement local information, and uses the dynamic addition of the two to generate prominent visual representation. To alleviate the pressure of the redundant targets on the graph convolution network (GCN) and to improve the model s attention on salient instances during modeling local features, the de-noised representation matrix and the enhanced adjacency matrix (DREA) are devised to assist GCN in producing superior local representations. DREA not only filters out redundant features with high similarity, but also obtains more powerful local features by enhancing the features of prominent objects. Finally, to make full use of the information in the similarity matrix during inference, we come up with a plug-and-play multivariate rerank (MR) algorithm. The algorithm utilizes the k nearest neighbors of the retrieval results to perform a reverse search, and improves the performance by combining multiple components of bidirectional retrieval. Extensive experiments on public datasets strongly demonstrate the state-of-the-art performance of GaLR methods on the RSCTIR task. The code of GaLR method, MR algorithm, and corresponding files have been made available at https://github.com/xiaoyuan1996/GaLR .
Abstract（参考訳）: リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。しかし、現在のRSCTIR法は、主にRS画像のグローバルな特徴に焦点を当てており、ターゲット関係と正当性を反映した局所的特徴の無視につながっている。本稿では,まずグローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報動的融合(MIDF)モジュールを設計し,異なるレベルの特徴を効果的に統合する。 midfはローカル情報を利用してグローバル情報を補正し、グローバル情報を利用してローカル情報を補完し、動的に2つを追加して目立った視覚的表現を生成する。グラフ畳み込みネットワーク(GCN)における冗長なターゲットの圧力を緩和し、局所特徴をモデル化する際の正常なインスタンスに対するモデルの注意力を改善するため、GCNが優れた局所表現を生成するのを支援するために、非雑音表現行列と拡張隣接行列(DREA)を考案した。 DREAは、冗長な機能を高い類似性でフィルタリングするだけでなく、顕著なオブジェクトの特徴を強化することで、より強力なローカル機能も得る。最後に、推論中に類似度行列の情報をフル活用するために、プラグ・アンド・プレイ多変量再帰法(MR)アルゴリズムを提案する。このアルゴリズムは、検索結果の k 近傍を利用して逆探索を行い、双方向検索の複数の成分を組み合わせることで性能を向上させる。公開データセットに対する大規模な実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。 GaLR法、MRアルゴリズム、および対応するファイルのコードはhttps://github.com/xiaoyuan 1996/GaLR で公開されている。

関連論文リスト

Cross-Modal Pre-Aligned Method with Global and Local Information for Remote-Sensing Image and Text Retrieval [16.995114000869833]
グローバルな情報とローカルな情報を活用するクロスモーダル・プレアライメント手法であるCMPAGLを提案する。我々のGswin変換ブロックは、ローカルウィンドウの自己アテンションとグローバルローカルウィンドウのクロスアテンションを組み合わせて、マルチスケールな特徴をキャプチャする。 RSICDとRSITMDを含む4つのデータセットの実験はCMPAGLの有効性を検証する。
論文参考訳（メタデータ） (2024-11-22T03:28:55Z)
United Domain Cognition Network for Salient Object Detection in Optical Remote Sensing Images [21.76732661032257]
周波数領域と空間領域のグローバルローカル情報を共同で探索する新しい統一ドメイン認知ネットワーク(UDCNet)を提案する。実験結果から提案したUDCNetが24種類の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-11T04:12:27Z)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-21T12:02:47Z)
LR-FPN: Enhancing Remote Sensing Object Detection with Location Refined Feature Pyramid Network [2.028685490378346]
浅い位置情報の抽出を促進するために,新しい位置改良型特徴ピラミッドネットワーク(LR-FPN)を提案する。 2つの大規模なリモートセンシングデータセットの実験により、提案したLR-FPNは最先端のオブジェクト検出手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-04-02T03:36:07Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Salient Object Detection in Optical Remote Sensing Images Driven by Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。 3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2023-09-15T07:14:43Z)
RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文参考訳（メタデータ） (2023-06-14T16:40:19Z)
DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文参考訳（メタデータ） (2023-01-05T12:06:47Z)
LCTR: On Awakening the Local Continuity of Transformer for Weakly Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-10T01:48:40Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-04T03:28:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。