論文の概要: Cross-modal Active Complementary Learning with Self-refining
Correspondence
- arxiv url: http://arxiv.org/abs/2310.17468v2
- Date: Mon, 8 Jan 2024 02:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:36:33.415404
- Title: Cross-modal Active Complementary Learning with Self-refining
Correspondence
- Title(参考訳): 自己精製対応型クロスモーダルアクティブ補完学習
- Authors: Yang Qin, Yuan Sun, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Peng Hu
- Abstract要約: 既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
- 参考スコア(独自算出の注目度): 54.61307946222386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, image-text matching has attracted more and more attention from
academia and industry, which is fundamental to understanding the latent
correspondence across visual and textual modalities. However, most existing
methods implicitly assume the training pairs are well-aligned while ignoring
the ubiquitous annotation noise, a.k.a noisy correspondence (NC), thereby
inevitably leading to a performance drop. Although some methods attempt to
address such noise, they still face two challenging problems: excessive
memorizing/overfitting and unreliable correction for NC, especially under high
noise. To address the two problems, we propose a generalized Cross-modal Robust
Complementary Learning framework (CRCL), which benefits from a novel Active
Complementary Loss (ACL) and an efficient Self-refining Correspondence
Correction (SCC) to improve the robustness of existing methods. Specifically,
ACL exploits active and complementary learning losses to reduce the risk of
providing erroneous supervision, leading to theoretically and experimentally
demonstrated robustness against NC. SCC utilizes multiple self-refining
processes with momentum correction to enlarge the receptive field for
correcting correspondences, thereby alleviating error accumulation and
achieving accurate and stable corrections. We carry out extensive experiments
on three image-text benchmarks, i.e., Flickr30K, MS-COCO, and CC152K, to verify
the superior robustness of our CRCL against synthetic and real-world noisy
correspondences.
- Abstract(参考訳): 近年,画像テキストマッチングは,視覚的・テキスト的モダリティにまたがる潜在的対応を理解する上での基礎となる,学術・産業の注目を集めている。
しかし、既存のほとんどの手法は、ユビキタスアノテーションノイズ、すなわちノイズ対応(NC)を無視しながら、トレーニングペアがうまく一致していると暗黙的に仮定している。
このようなノイズに対処しようとする手法もあるが、過度な記憶/過度な適合と、特に高雑音下でのNCの信頼性の低い修正という2つの難しい問題に直面している。
そこで本研究では,既存の手法のロバスト性を改善するために,新しいacl(active complement loss)とscc(auto-refining correspondence correction)の恩恵を受ける汎用的なcrcl(cross-modal robust complement learning framework)を提案する。
特に、aclはアクティブで補完的な学習損失を利用して誤った監督を提供するリスクを低減し、理論的および実験的にncに対する堅牢性が実証される。
SCCは、モーメント補正を伴う複数の自己精製プロセスを利用して、対応を補正するために受容場を拡大し、エラーの蓄積を緩和し、正確で安定した補正を達成する。
我々は3つの画像テキストベンチマーク(Flickr30K, MS-COCO, CC152K)で広範な実験を行い、CRCLの合成および実世界の雑音対応に対する優れた堅牢性を検証する。
関連論文リスト
- Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - Weakly Supervised Co-training with Swapping Assignments for Semantic
Segmentation [23.318478633472253]
クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。
我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。
CoSAは、追加の監督を持つものを含む、既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。
論文 参考訳(メタデータ) (2024-02-27T21:08:23Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。
RDEは2つの主要なコンポーネントから構成される: 1) 信頼合意部(CCD)モジュールは、二重埋め込みモジュールの二重きめ細かい決定を利用して、クリーンなトレーニングデータのコンセンサスセットを得る。
我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Correct-N-Contrast: A Contrastive Approach for Improving Robustness to
Spurious Correlations [59.24031936150582]
豪華な相関関係は、堅牢な機械学習にとって大きな課題となる。
経験的リスク最小化(ERM)で訓練されたモデルは、クラスラベルとスプリアス属性の相関に依存することを学習することができる。
CNC(Correct-N-Contrast, Correct-N-Contrast)を提案する。
論文 参考訳(メタデータ) (2022-03-03T05:03:28Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - ReADS: A Rectified Attentional Double Supervised Network for Scene Text
Recognition [22.367624178280682]
一般的なシーンテキスト認識のためのRectified Attentional Double Supervised Network (ReADS) を精巧に設計する。
ReADSはエンドツーエンドでトレーニングすることができ、ワードレベルのアノテーションのみが必要とされる。
論文 参考訳(メタデータ) (2020-04-05T02:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。