論文の概要: A Novel Self-Supervised Cross-Modal Image Retrieval Method In Remote
Sensing
- arxiv url: http://arxiv.org/abs/2202.11429v1
- Date: Wed, 23 Feb 2022 11:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 22:00:05.277636
- Title: A Novel Self-Supervised Cross-Modal Image Retrieval Method In Remote
Sensing
- Title(参考訳): リモートセンシングにおける自己監督型クロスモーダル画像検索手法
- Authors: Gencer Sumbul, Markus M\"uller, Beg\"um Demir
- Abstract要約: クロスモーダルRS画像検索手法は、異なるモーダルにわたって意味論的に類似した画像を検索する。
既存のCM-RSIR法では、注釈付きトレーニング画像が必要であり、モーダル内およびモーダル間類似性保存とモーダル間差分除去を同時に処理しない。
本稿では,異なるモダリティ間の相互情報を自己教師型でモデル化することを目的とした,新たな自己教師型クロスモーダル画像検索手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the availability of multi-modal remote sensing (RS) image archives,
one of the most important research topics is the development of cross-modal RS
image retrieval (CM-RSIR) methods that search semantically similar images
across different modalities. Existing CM-RSIR methods require annotated
training images (which is time-consuming, costly and not feasible to gather in
large-scale applications) and do not concurrently address intra- and
inter-modal similarity preservation and inter-modal discrepancy elimination. In
this paper, we introduce a novel self-supervised cross-modal image retrieval
method that aims to: i) model mutual-information between different modalities
in a self-supervised manner; ii) retain the distributions of modal-specific
feature spaces similar; and iii) define most similar images within each
modality without requiring any annotated training images. To this end, we
propose a novel objective including three loss functions that simultaneously:
i) maximize mutual information of different modalities for inter-modal
similarity preservation; ii) minimize the angular distance of multi-modal image
tuples for the elimination of inter-modal discrepancies; and iii) increase
cosine similarity of most similar images within each modality for the
characterization of intra-modal similarities. Experimental results show the
effectiveness of the proposed method compared to state-of-the-art methods. The
code of the proposed method is publicly available at
https://git.tu-berlin.de/rsim/SS-CM-RSIR.
- Abstract(参考訳): マルチモーダルリモートセンシング(RS)画像アーカイブが利用可能であることから、最も重要な研究テーマの1つは、異なるモーダルにわたって意味的に類似した画像を検索するクロスモーダルRS画像検索(CM-RSIR)手法の開発である。
既存のCM-RSIR法では、アノテートされたトレーニングイメージ(大規模なアプリケーションで収集するには時間を要するが、コストがかかり、実現不可能)が必要であり、モーダル内およびモーダル間類似性保存とモーダル間差分除去を同時に処理しない。
本稿では,新しい自己教師型クロスモーダル画像検索手法を提案する。
一 異なるモダリティ間の相互情報を自己監督的にモデル化すること。
二 モーダル特定特徴空間の分布を類似して保持すること。
三 注釈付き訓練画像を必要とすることなく、各モダリティ内で最も類似した画像を定義すること。
そこで我々は,3つの損失関数を同時に含む新たな目的を提案する。
一 モジュール間類似性保存のための異なるモダリティの相互情報の最大化
二 マルチモーダル画像タプルの角距離を最小化して、モーダル間不一致を解消すること。
iii) モダリティ内の類似性を評価するために、各モダリティ内の最も類似した画像のコサイン類似性を高めること。
実験により,提案手法の有効性を最先端手法と比較した。
提案手法のコードはhttps://git.tu-berlin.de/rsim/SS-CM-RSIRで公開されている。
関連論文リスト
- Cross-Modality Perturbation Synergy Attack for Person Re-identification [70.44850060727474]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Instance-Variant Loss with Gaussian RBF Kernel for 3D Cross-modal
Retriveal [52.41252219453429]
既存の方法は全てのインスタンスを等しく扱い、同じペナルティ強度を様々な難易度を持つインスタンスに適用する。
これは曖昧な収束や局所最適性をもたらし、特徴空間の分離性を著しく妥協させる。
本稿では,異なるインスタンスに対して異なるペナルティ強度を割り当て,空間分離性を向上させるインスタンス・ヴァリアント損失を提案する。
論文 参考訳(メタデータ) (2023-05-07T10:12:14Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - A Similarity Inference Metric for RGB-Infrared Cross-Modality Person
Re-identification [66.49212581685127]
IRとRGBの相違が大きいため、モダリティの人物再識別(re-ID)は難しい課題である。
既存のメソッドはこの課題に対処するため、典型的には、特徴分布やイメージスタイルをモダリティ間で整列させることで対処する。
本稿では,モダリティ内サンプルの類似性を利用して,モダリティ間の相違を回避する新しい類似度推定指標(SIM)を提案する。
論文 参考訳(メタデータ) (2020-07-03T05:28:13Z) - CoMIR: Contrastive Multimodal Image Representation for Registration [4.543268895439618]
我々は,CoMIR(Contrastive Multimodal Image Representations)と呼ばれる,共有された高密度画像表現を学習するためのコントラスト符号化を提案する。
CoMIRは、十分に類似した画像構造が欠如しているため、既存の登録方法がしばしば失敗するマルチモーダル画像の登録を可能にする。
論文 参考訳(メタデータ) (2020-06-11T10:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。