論文の概要: Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information
- arxiv url: http://arxiv.org/abs/2204.09860v1
- Date: Thu, 21 Apr 2022 03:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 01:26:43.182492
- Title: Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information
- Title(参考訳): グローバル・ローカル情報に基づくリモートセンシング型クロスモーダルテキスト画像検索
- Authors: Zhiqiang Yuan, Wenkai Zhang, Changyuan Tian, Xuee Rong, Zhengyuan
Zhang, Hongqi Wang, Kun Fu, and Xian Sun
- Abstract要約: リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
- 参考スコア(独自算出の注目度): 15.32353270625554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal remote sensing text-image retrieval (RSCTIR) has recently become
an urgent research hotspot due to its ability of enabling fast and flexible
information extraction on remote sensing (RS) images. However, current RSCTIR
methods mainly focus on global features of RS images, which leads to the
neglect of local features that reflect target relationships and saliency. In
this article, we first propose a novel RSCTIR framework based on global and
local information (GaLR), and design a multi-level information dynamic fusion
(MIDF) module to efficaciously integrate features of different levels. MIDF
leverages local information to correct global information, utilizes global
information to supplement local information, and uses the dynamic addition of
the two to generate prominent visual representation. To alleviate the pressure
of the redundant targets on the graph convolution network (GCN) and to improve
the model s attention on salient instances during modeling local features, the
de-noised representation matrix and the enhanced adjacency matrix (DREA) are
devised to assist GCN in producing superior local representations. DREA not
only filters out redundant features with high similarity, but also obtains more
powerful local features by enhancing the features of prominent objects.
Finally, to make full use of the information in the similarity matrix during
inference, we come up with a plug-and-play multivariate rerank (MR) algorithm.
The algorithm utilizes the k nearest neighbors of the retrieval results to
perform a reverse search, and improves the performance by combining multiple
components of bidirectional retrieval. Extensive experiments on public datasets
strongly demonstrate the state-of-the-art performance of GaLR methods on the
RSCTIR task. The code of GaLR method, MR algorithm, and corresponding files
have been made available at https://github.com/xiaoyuan1996/GaLR .
- Abstract(参考訳): リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
しかし、現在のRSCTIR法は、主にRS画像のグローバルな特徴に焦点を当てており、ターゲット関係と正当性を反映した局所的特徴の無視につながっている。
本稿では,まずグローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報動的融合(MIDF)モジュールを設計し,異なるレベルの特徴を効果的に統合する。
midfはローカル情報を利用してグローバル情報を補正し、グローバル情報を利用してローカル情報を補完し、動的に2つを追加して目立った視覚的表現を生成する。
グラフ畳み込みネットワーク(GCN)における冗長なターゲットの圧力を緩和し、局所特徴をモデル化する際の正常なインスタンスに対するモデルの注意力を改善するため、GCNが優れた局所表現を生成するのを支援するために、非雑音表現行列と拡張隣接行列(DREA)を考案した。
DREAは、冗長な機能を高い類似性でフィルタリングするだけでなく、顕著なオブジェクトの特徴を強化することで、より強力なローカル機能も得る。
最後に、推論中に類似度行列の情報をフル活用するために、プラグ・アンド・プレイ多変量再帰法(MR)アルゴリズムを提案する。
このアルゴリズムは、検索結果の k 近傍を利用して逆探索を行い、双方向検索の複数の成分を組み合わせることで性能を向上させる。
公開データセットに対する大規模な実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
GaLR法、MRアルゴリズム、および対応するファイルのコードはhttps://github.com/xiaoyuan 1996/GaLR で公開されている。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。