論文の概要: REPAIR: Rank Correlation and Noisy Pair Half-replacing with Memory for
Noisy Correspondence
- arxiv url: http://arxiv.org/abs/2403.08224v1
- Date: Wed, 13 Mar 2024 04:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:50:04.131271
- Title: REPAIR: Rank Correlation and Noisy Pair Half-replacing with Memory for
Noisy Correspondence
- Title(参考訳): REPAIR:ランク相関とノイズペアハーフリプレース
ノイズ対応
- Authors: Ruochen Zheng, Jiahao Hong, Changxin Gao, Nong Sang
- Abstract要約: 取得したデータにノイズが存在することは、クロスモーダルマッチングの性能低下につながる。
我々は,不一致なデータペア問題に対処するために,ランクコラーレーションと雑音hAlf wIth memoRyというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.274879585424635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The presence of noise in acquired data invariably leads to performance
degradation in cross-modal matching. Unfortunately, obtaining precise
annotations in the multimodal field is expensive, which has prompted some
methods to tackle the mismatched data pair issue in cross-modal matching
contexts, termed as noisy correspondence. However, most of these existing noisy
correspondence methods exhibit the following limitations: a) the problem of
self-reinforcing error accumulation, and b) improper handling of noisy data
pair. To tackle the two problems, we propose a generalized framework termed as
Rank corrElation and noisy Pair hAlf-replacing wIth memoRy (REPAIR), which
benefits from maintaining a memory bank for features of matched pairs.
Specifically, we calculate the distances between the features in the memory
bank and those of the target pair for each respective modality, and use the
rank correlation of these two sets of distances to estimate the soft
correspondence label of the target pair. Estimating soft correspondence based
on memory bank features rather than using a similarity network can avoid the
accumulation of errors due to incorrect network identifications. For pairs that
are completely mismatched, REPAIR searches the memory bank for the most
matching feature to replace one feature of one modality, instead of using the
original pair directly or merely discarding the mismatched pair. We conduct
experiments on three cross-modal datasets, i.e., Flickr30K, MSCOCO, and CC152K,
proving the effectiveness and robustness of our REPAIR on synthetic and
real-world noise.
- Abstract(参考訳): 取得したデータにおけるノイズの存在は、クロスモーダルマッチングの性能劣化を必然的に引き起こす。
残念ながら、マルチモーダルフィールドでの正確なアノテーションの取得は高価であり、ノイズ対応と呼ばれるクロスモーダルマッチングコンテキストにおけるミスマッチしたデータペア問題に対処するいくつかの手法が提案されている。
しかし、これらの既存の雑音対応法のほとんどは、以下の制限を示している。
イ 自己強化誤差蓄積の問題、及び
ロ ノイズの多いデータ対の不正な取扱い
この2つの問題に対処するために、一致したペアの特徴に対するメモリバンクの維持の利点を生かした、Rate corrElationとnoisy Pair hAllf-replacing wIth memoRy (REPAIR)と呼ばれる一般化されたフレームワークを提案する。
具体的には,各モダリティについて,メモリバンクの特徴量と対象ペアの距離を算出し,これらの2つの距離のランク相関を用いて,対象ペアのソフト対応ラベルを推定する。
類似性ネットワークを使わずに,メモリバンクの特徴に基づくソフト対応を推定することで,誤識別によるエラーの蓄積を回避することができる。
完全にミスマッチしたペアに対して、REPAIRはメモリバンクを最もマッチした機能を探し出し、1つのモダリティの1つの機能を置き換える。
我々は, Flickr30K, MSCOCO, CC152Kの3つのクロスモーダルデータセットを用いて実験を行い, 合成および実世界のノイズに対するREPAIRの有効性とロバスト性を実証した。
関連論文リスト
- Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Diff-Reg v1: Diffusion Matching Model for Registration Problem [34.57825794576445]
既存の手法では、幾何学的あるいは意味的な特徴を利用して潜在的な対応を生成する。
従来はシングルパス予測に頼っていた手法は、複雑なシナリオにおいて局所的なミニマと競合する可能性がある。
本稿では,ロバスト対応推定のための拡散マッチングモデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T02:10:38Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Negative Pre-aware for Noisy Cross-modal Matching [46.5591267410225]
雑音対応は認識と修正が難しいため,クロスモーダルノイズロバスト学習は難しい課題である。
本稿では,雑音の多い下流タスクに対する大規模視覚言語モデルファインタニングのための,否定的事前認識型クロスモーダルマッチングソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:52:36Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。