論文の概要: PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2408.01349v1
- Date: Fri, 2 Aug 2024 15:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 12:58:15.406266
- Title: PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval
- Title(参考訳): PC$^2$: Pseudo-classification based Pseudo-Captioning for Noisy Cor correspondingence Learning in Cross-Modal Retrieval (特集:情報ネットワーク)
- Authors: Yue Duan, Zhangxuan Gu, Zhenzhe Ying, Lei Qi, Changhua Meng, Yinghuan Shi,
- Abstract要約: 本稿では, Pseudo- Classification based Pseudo-Captioning (PC$2$) フレームワークについて述べる。
ミスマッチしたペアごとに、より情報的で具体的な監視を提供するために、擬似カプセルを生成します。
技術的貢献に加えて、NoW(NoW)と呼ばれる現実的なNCLデータセットを開発する。
- 参考スコア(独自算出の注目度): 31.835423198544706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of cross-modal retrieval, seamlessly integrating diverse modalities within multimedia remains a formidable challenge, especially given the complexities introduced by noisy correspondence learning (NCL). Such noise often stems from mismatched data pairs, which is a significant obstacle distinct from traditional noisy labels. This paper introduces Pseudo-Classification based Pseudo-Captioning (PC$^2$) framework to address this challenge. PC$^2$ offers a threefold strategy: firstly, it establishes an auxiliary "pseudo-classification" task that interprets captions as categorical labels, steering the model to learn image-text semantic similarity through a non-contrastive mechanism. Secondly, unlike prevailing margin-based techniques, capitalizing on PC$^2$'s pseudo-classification capability, we generate pseudo-captions to provide more informative and tangible supervision for each mismatched pair. Thirdly, the oscillation of pseudo-classification is borrowed to assistant the correction of correspondence. In addition to technical contributions, we develop a realistic NCL dataset called Noise of Web (NoW), which could be a new powerful NCL benchmark where noise exists naturally. Empirical evaluations of PC$^2$ showcase marked improvements over existing state-of-the-art robust cross-modal retrieval techniques on both simulated and realistic datasets with various NCL settings. The contributed dataset and source code are released at https://github.com/alipay/PC2-NoiseofWeb.
- Abstract(参考訳): クロスモーダル検索の分野では、特にノイズ対応学習(NCL)によって引き起こされる複雑さを考えると、マルチメディアに多様なモダリティをシームレスに統合することは、依然として困難な課題である。
このようなノイズは、しばしば、従来のノイズラベルとは異なる重要な障害である、ミスマッチしたデータペアに由来する。
本稿では, Pseudo-Classification をベースとした Pseudo-Captioning (PC$^2$) フレームワークを提案する。
PC$^2$は3つの戦略を提供する: 第一に、キャプションをカテゴリラベルとして解釈する補助的な「擬似分類」タスクを確立し、非競合メカニズムを通じて画像テキストのセマンティックな類似性を学ぶためにモデルを操縦する。
第二に、PC$^2$の擬似分類能力に乗じて、一般的なマージンベースの手法とは異なり、擬似キャプションを生成し、各ペアについてより情報的で具体的な監視を行う。
第3に、擬似分類の発振は、対応の補正を支援するために借りられる。
技術的貢献に加えて、ノイズが自然に存在する新しい強力なNCLベンチマークであるNoWと呼ばれる現実的なNCLデータセットを開発する。
PC$^2$の実証評価は、様々なNCL設定のシミュレーションおよび現実的データセット上で、既存の最先端の堅牢なクロスモーダル検索技術よりも顕著に改善された。
投稿されたデータセットとソースコードはhttps://github.com/alipay/PC2-NoiseofWebで公開されている。
関連論文リスト
- Any2Any: Incomplete Multimodal Retrieval with Conformal Prediction [17.607392214470295]
我々はAny2Anyという新しい検索フレームワークを提案し、クエリと参照の両方が不完全なモダリティを持つシナリオに対処する。
クロスモーダルエンコーダとのペアワイズ類似度を計算し、同型予測を伴う2段階キャリブレーションプロセスを用いて類似度を整列する。
KITTIデータセットで35%のRecall@5を達成する。
論文 参考訳(メタデータ) (2024-11-15T17:44:27Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification
with Cross-Modal Retrieval [29.838375158101027]
CLIP(Contrastive Language-image Pre-training)は,ゼロショット分類能力に優れていた。
本稿では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つの重要なステップからなる新しい推論手法であるX-MoReを提案する。
X-MoReは、追加のトレーニングを必要とせずに、さまざまなタスクセットで堅牢なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-29T13:02:35Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Learning Efficient Representations for Keyword Spotting with Triplet
Loss [0.0]
3重項損失に基づく埋め込みと分類のためのkNNの変種の組み合わせにより、LibriSpeech由来データセット上の畳み込みネットワークの分類精度が大幅に向上することを示した。
また、現在のGoogle Speech CommandsデータセットV2 10+2クラスの分類と、約6倍のコンパクトなアーキテクチャを一致させ、Google Speech CommandsデータセットV2の35クラスの分類で現在の最高のSOTAを改善します。
論文 参考訳(メタデータ) (2021-01-12T22:55:17Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。