論文の概要: Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote
Sensing Image Retrieval
- arxiv url: http://arxiv.org/abs/2204.09868v1
- Date: Thu, 21 Apr 2022 03:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-23 00:06:28.546887
- Title: Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote
Sensing Image Retrieval
- Title(参考訳): クロスモーダルリモートセンシング画像検索のための細粒度マルチスケール手法の探索
- Authors: Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang,
and Xian Sun
- Abstract要約: クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。
RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。
本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
- 参考スコア(独自算出の注目度): 21.05804942940532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing (RS) cross-modal text-image retrieval has attracted extensive
attention for its advantages of flexible input and efficient query. However,
traditional methods ignore the characteristics of multi-scale and redundant
targets in RS image, leading to the degradation of retrieval accuracy. To cope
with the problem of multi-scale scarcity and target redundancy in RS multimodal
retrieval task, we come up with a novel asymmetric multimodal feature matching
network (AMFMN). Our model adapts to multi-scale feature inputs, favors
multi-source retrieval methods, and can dynamically filter redundant features.
AMFMN employs the multi-scale visual self-attention (MVSA) module to extract
the salient features of RS image and utilizes visual features to guide the text
representation. Furthermore, to alleviate the positive samples ambiguity caused
by the strong intraclass similarity in RS image, we propose a triplet loss
function with dynamic variable margin based on prior similarity of sample
pairs. Finally, unlike the traditional RS image-text dataset with coarse text
and higher intraclass similarity, we construct a fine-grained and more
challenging Remote sensing Image-Text Match dataset (RSITMD), which supports RS
image retrieval through keywords and sentence separately and jointly.
Experiments on four RS text-image datasets demonstrate that the proposed model
can achieve state-of-the-art performance in cross-modal RS text-image retrieval
task.
- Abstract(参考訳): リモートセンシング (RS) のクロスモーダルテキスト画像検索は, フレキシブルな入力と効率的なクエリの利点から注目されている。
しかし,従来の手法では,rs画像におけるマルチスケールおよび冗長なターゲットの特性を無視し,検索精度の低下を招いた。
RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため,新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。
本モデルは,マルチスケール機能入力に適応し,マルチソース検索手法を好み,冗長な機能を動的にフィルタすることができる。
AMFMNはマルチスケール視覚自己注意(MVSA)モジュールを使用して、RS画像の健全な特徴を抽出し、視覚的特徴を利用してテキスト表現を誘導する。
さらに,RS画像の強いクラス内類似性に起因する正のサンプルのあいまいさを軽減するために,試料対の先行類似性に基づく動的変数マージンを持つ三重項損失関数を提案する。
最後に、粗いテキストと高いクラス内類似性を持つ従来のrs画像テキストデータセットとは異なり、より細粒度でより挑戦的なrsitmd(remote sensing image-text match dataset)を構築し、キーワードと文によるrs画像検索を別々にサポートする。
4つのRSテキスト画像データセットに対する実験により,提案モデルがクロスモーダルRSテキスト画像検索タスクにおいて最先端の性能を達成可能であることを示す。
関連論文リスト
- MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation [25.252173311925027]
マルチモーダル,マルチGSD,マルチシーンリモートセンシング(MMM-RS)データセットと,多様なリモートセンシングシナリオにおけるテキスト・ツー・イメージ生成のためのベンチマークを提案する。
大規模な事前学習型視覚言語モデルを用いて、テキストプロンプトを自動出力し、手作りの修正を行う。
広範囲な手動スクリーニングと修正アノテーションにより、最終的に約2100万のテキストイメージペアからなるMMM-RSデータセットを得る。
論文 参考訳(メタデータ) (2024-10-26T11:19:07Z) - OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、公開可能なRSデータセットを収集し、排除、スライシング、復号化によってそれらを処理することで、OptoRS-4Mという高品質なデータセットをキュレートした。
実験により,OCR-4Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。
現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。
本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T10:19:11Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Bootstrapping Interactive Image-Text Alignment for Remote Sensing Image
Captioning [49.48946808024608]
BITAと呼ばれるリモートセンシング画像キャプションのための対話型画像テキストアライメントをブートストラップする2段階の視覚言語事前学習手法を提案する。
具体的には、第1段階は画像テキストコントラスト学習による予備的なアライメントを含む。
第2段階では、インタラクティブなフーリエ変換器が凍結画像エンコーダと大きな言語モデルとを接続する。
論文 参考訳(メタデータ) (2023-12-02T17:32:17Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal
Text-Image Retrieval in Remote Sensing [1.6758573326215689]
本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。
私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
論文 参考訳(メタデータ) (2022-01-20T12:05:10Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。