論文の概要: BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency
- arxiv url: http://arxiv.org/abs/2303.12419v1
- Date: Wed, 22 Mar 2023 09:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:34:47.804845
- Title: BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency
- Title(参考訳): BiCro:双方向クロスモーダル類似性を用いたマルチモーダルデータのノイズ対応整流
- Authors: Shuo Yang, Zhaopan Xu, Kai Wang, Yang You, Hongxun Yao, Tongliang Liu,
Min Xu
- Abstract要約: BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 66.8685113725007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the most fundamental techniques in multimodal learning, cross-modal
matching aims to project various sensory modalities into a shared feature
space. To achieve this, massive and correctly aligned data pairs are required
for model training. However, unlike unimodal datasets, multimodal datasets are
extremely harder to collect and annotate precisely. As an alternative, the
co-occurred data pairs (e.g., image-text pairs) collected from the Internet
have been widely exploited in the area. Unfortunately, the cheaply collected
dataset unavoidably contains many mismatched data pairs, which have been proven
to be harmful to the model's performance. To address this, we propose a general
framework called BiCro (Bidirectional Cross-modal similarity consistency),
which can be easily integrated into existing cross-modal matching models and
improve their robustness against noisy data. Specifically, BiCro aims to
estimate soft labels for noisy data pairs to reflect their true correspondence
degree. The basic idea of BiCro is motivated by that -- taking image-text
matching as an example -- similar images should have similar textual
descriptions and vice versa. Then the consistency of these two similarities can
be recast as the estimated soft labels to train the matching model. The
experiments on three popular cross-modal matching datasets demonstrate that our
method significantly improves the noise-robustness of various matching models,
and surpass the state-of-the-art by a clear margin.
- Abstract(参考訳): マルチモーダル学習における最も基本的な手法の1つとして、クロスモーダルマッチングは、様々な感覚モーダルを共有特徴空間に投影することを目的としている。
これを実現するために、モデルトレーニングには大規模で正しく整合したデータペアが必要である。
しかし、ユニモーダルデータセットとは異なり、マルチモーダルデータセットの収集と注釈付けは非常に困難である。
代替として、インターネットから収集された共起データペア(画像とテキストのペアなど)がこの地域で広く活用されている。
残念ながら、安価に収集されたデータセットには、モデルのパフォーマンスに有害であることが証明された多くのミスマッチしたデータペアが必然的に含まれている。
そこで本研究では,既存のクロスモーダルマッチングモデルと容易に統合できるbicro(bidirectional cross-modal similarity consistency)という汎用フレームワークを提案する。
特にbicroは、ノイズの多いデータペアのソフトラベルを推定し、真の対応度を反映することを目指している。
bicroの基本的な考え方は -- イメージテキストマッチングを例にとれば -- 類似したイメージは、同様のテキスト記述を持つべきであり、その逆も然るべきである。
そして、これら2つの類似性の整合性を推定ソフトラベルとして再キャストし、マッチングモデルをトレーニングする。
3つのポピュラーなクロスモーダルマッチングデータセットを用いた実験により,提案手法が様々なマッチングモデルのノイズロバスト性を大幅に改善し,最先端技術を上回ることを示した。
関連論文リスト
- Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text Matching [10.709744162565274]
本稿では2つの側面からモダリティギャップを橋渡しするDIASと呼ばれる新しい手法を提案する。
この方法はFlickr30kとMSCOCOベンチマークで4.3%-10.2%のrSum改善を実現している。
論文 参考訳(メタデータ) (2024-10-22T09:37:29Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Noisy Correspondence Learning with Meta Similarity Correction [22.90696057856008]
マルチモーダル学習は マルチメディアデータ間の 正しい対応に依存しています
最も広く使われているデータセットはインターネットから収集され、必然的にミスマッチしたペアを含んでいる。
本稿では,Meta similarity Correction Network(MSCN)を提案する。
論文 参考訳(メタデータ) (2023-04-13T05:20:45Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Multi-View Correlation Consistency for Semi-Supervised Semantic
Segmentation [59.34619548026885]
半教師付きセマンティックセグメンテーションは、ラベルなしデータのリッチで堅牢な監視を必要とする。
本稿では,異なるビュー間の画素・画素対応を保証するビューコヒーレントなデータ拡張戦略を提案する。
2つのデータセットの半教師付き設定では、最先端の手法と比較して、競争の正確さが報告される。
論文 参考訳(メタデータ) (2022-08-17T17:59:11Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。