論文の概要: Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2403.05105v1
- Date: Fri, 8 Mar 2024 07:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:47:52.574485
- Title: Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
- Title(参考訳): ロバストなクロスモーダル検索のためのミスマッチペアの再マッチ学習
- Authors: Haochen Han, Qinghua Zheng, Guang Dai, Minnan Luo, Jingdong Wang
- Abstract要約: 実世界のシナリオでは、大規模なマルチモーダルデータは、必然的にPMP(Partially Mismatched Pairs)を含むインターネットから収集される。
従来の取り組みでは、PMPの貢献度を下げるためのソフトな対応を推定することで、この問題を軽減する傾向があった。
我々は、ミスマッチペアの再マッチを学習する最適輸送(OT)に基づく一般的なフレームワークであるL2RMを提案する。
- 参考スコア(独自算出の注目度): 49.07523607316323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting well-matched multimedia datasets is crucial for training
cross-modal retrieval models. However, in real-world scenarios, massive
multimodal data are harvested from the Internet, which inevitably contains
Partially Mismatched Pairs (PMPs). Undoubtedly, such semantical irrelevant data
will remarkably harm the cross-modal retrieval performance. Previous efforts
tend to mitigate this problem by estimating a soft correspondence to
down-weight the contribution of PMPs. In this paper, we aim to address this
challenge from a new perspective: the potential semantic similarity among
unpaired samples makes it possible to excavate useful knowledge from mismatched
pairs. To achieve this, we propose L2RM, a general framework based on Optimal
Transport (OT) that learns to rematch mismatched pairs. In detail, L2RM aims to
generate refined alignments by seeking a minimal-cost transport plan across
different modalities. To formalize the rematching idea in OT, first, we propose
a self-supervised cost function that automatically learns from explicit
similarity-cost mapping relation. Second, we present to model a partial OT
problem while restricting the transport among false positives to further boost
refined alignments. Extensive experiments on three benchmarks demonstrate our
L2RM significantly improves the robustness against PMPs for existing models.
The code is available at https://github.com/hhc1997/L2RM.
- Abstract(参考訳): 整合したマルチメディアデータセットの収集は、クロスモーダル検索モデルのトレーニングに不可欠である。
しかし、現実のシナリオでは、大規模なマルチモーダルデータは、必然的にPMP(Partially Mismatched Pairs)を含むインターネットから収集される。
このような意味的無関係なデータは、明らかにクロスモーダル検索性能を著しく損なう。
従来の取り組みは、PMPの貢献度を下げるためのソフト対応を推定することでこの問題を軽減する傾向にある。
本稿では,この課題に新たな視点から対処することを目的とする。未ペアのサンプル間の潜在的な意味的類似性により,ミスマッチしたペアから有用な知識を発掘することができる。
そこで本研究では,ミスマッチペアの再マッチを学習する OT (Optimal Transport) に基づく汎用フレームワーク L2RM を提案する。
詳細は、L2RMは様々なモダリティにまたがる最小限の輸送計画を求めることにより、洗練されたアライメントを生み出すことを目的としている。
otにおける再マッチングのアイデアを形式化するために,まず,明示的な類似度-コストマッピング関係から自動的に学習する自己教師付きコスト関数を提案する。
第2に, 部分的OT問題をモデル化し, 偽陽性間の輸送を制限し, 改良されたアライメントをさらに強化する。
3つのベンチマークによる大規模な実験により、L2RMは既存のモデルに対するPMPに対するロバスト性を大幅に改善することが示された。
コードはhttps://github.com/hhc1997/l2rmで入手できる。
関連論文リスト
- Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Mitigating Spurious Correlations in Multi-modal Models during
Fine-tuning [18.45898471459533]
モデル一般化を低下させたり、間違った理由でモデルが正しいことを導いたという豪華な相関は、現実世界のデプロイメントにおいて大きな堅牢性に関する懸念の1つです。
本稿では,特定の関心領域の微調整において,刺激的な相関に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-08T05:20:33Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。