論文の概要: An Unsupervised Cross-Modal Hashing Method Robust to Noisy Training
Image-Text Correspondences in Remote Sensing
- arxiv url: http://arxiv.org/abs/2202.13117v1
- Date: Sat, 26 Feb 2022 11:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 10:46:17.756028
- Title: An Unsupervised Cross-Modal Hashing Method Robust to Noisy Training
Image-Text Correspondences in Remote Sensing
- Title(参考訳): リモートセンシングにおけるノイズトレーニング画像テキスト対応に頑健な教師なしクロスモーダルハッシュ法
- Authors: Georgii Mikriukov, Mahdyar Ravanbakhsh, Beg\"um Demir
- Abstract要約: リモートセンシングにおいて,モーダル画像テキスト検索手法が注目されている。
既存の手法の多くは、正確に一致したテキストイメージ対を持つ信頼性の高いマルチモーダルトレーニングセットが存在すると仮定している。
ノイズの多い画像テキスト対応(CHNR)に頑健な新しい教師なしクロスモーダルハッシュ法を提案する。
実験の結果,CHNRは最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.6758573326215689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of accurate and scalable cross-modal image-text retrieval
methods, where queries from one modality (e.g., text) can be matched to archive
entries from another (e.g., remote sensing image) has attracted great attention
in remote sensing (RS). Most of the existing methods assume that a reliable
multi-modal training set with accurately matched text-image pairs is existing.
However, this assumption may not always hold since the multi-modal training
sets may include noisy pairs (i.e., textual descriptions/captions associated to
training images can be noisy), distorting the learning process of the retrieval
methods. To address this problem, we propose a novel unsupervised cross-modal
hashing method robust to the noisy image-text correspondences (CHNR). CHNR
consists of three modules: 1) feature extraction module, which extracts feature
representations of image-text pairs; 2) noise detection module, which detects
potential noisy correspondences; and 3) hashing module that generates
cross-modal binary hash codes. The proposed CHNR includes two training phases:
i) meta-learning phase that uses a small portion of clean (i.e., reliable) data
to train the noise detection module in an adversarial fashion; and ii) the main
training phase for which the trained noise detection module is used to identify
noisy correspondences while the hashing module is trained on the noisy
multi-modal training set. Experimental results show that the proposed CHNR
outperforms state-of-the-art methods. Our code is publicly available at
https://git.tu-berlin.de/rsim/chnr
- Abstract(参考訳): あるモダリティ(テキストなど)からのクエリを、別のモダリティ(リモートセンシングイメージなど)からのアーカイブエントリとマッチングできる、正確でスケーラブルなクロスモーダルな画像テキスト検索手法の開発は、リモートセンシング(rs)において大きな注目を集めている。
既存の手法の多くは、正確に一致したテキストイメージ対を持つ信頼性の高いマルチモーダルトレーニングセットが存在すると仮定している。
しかし、この仮定は、マルチモーダルなトレーニングセットにはノイズのあるペア(例えば、トレーニング画像に関連するテキスト記述やカプセル)が含まれており、検索方法の学習プロセスを歪めてしまうため、常に成り立つとは限らない。
この問題に対処するために,ノイズの多い画像テキスト対応(chnr)に頑健な教師なしクロスモーダルハッシュ法を提案する。
CHNRは3つのモジュールから構成される。
1) 画像とテキストの対の特徴表現を抽出する特徴抽出モジュール
2)潜在的なノイズ対応を検出するノイズ検出モジュール,及び
3) クロスモーダルバイナリハッシュコードを生成するハッシュモジュール。
提案されたCHNRは2つの訓練段階を含む。
一 クリーンな(すなわち、信頼性の高い)データのごく一部を使用して、ノイズ検出モジュールを敵対的に訓練するメタラーニングフェーズ
二 訓練されたノイズ検出モジュールを使用してノイズ対応を識別するメイントレーニングフェーズを、ハッシングモジュールをノイズのマルチモーダルトレーニングセットで訓練する。
実験の結果,CHNRは最先端手法よりも優れていた。
私たちのコードはhttps://git.tu-berlin.de/rsim/chnrで公開されています。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Semi-supervised Text-based Person Search [47.14739994781334]
既存の手法は、完全教師付き学習において十分な性能を達成するために、大量の注釈付き画像テキストデータに依存している。
本稿では,半教師付きTBPSの世代別検索に基づく2段階基本解を提案する。
本稿では,ノイズの多いデータを扱うための検索モデルの能力を高めるためのノイズロバスト検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-28T07:47:52Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal
Text-Image Retrieval in Remote Sensing [1.6758573326215689]
本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。
私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
論文 参考訳(メタデータ) (2022-01-20T12:05:10Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。