論文の概要: Cross-modal Active Complementary Learning with Self-refining
Correspondence
- arxiv url: http://arxiv.org/abs/2310.17468v1
- Date: Thu, 26 Oct 2023 15:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:36:13.764644
- Title: Cross-modal Active Complementary Learning with Self-refining
Correspondence
- Title(参考訳): 自己精製対応型クロスモーダルアクティブ補完学習
- Authors: Yang Qin, Yuan Sun, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Peng Hu
- Abstract要約: 既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
- 参考スコア(独自算出の注目度): 54.61307946222386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, image-text matching has attracted more and more attention from
academia and industry, which is fundamental to understanding the latent
correspondence across visual and textual modalities. However, most existing
methods implicitly assume the training pairs are well-aligned while ignoring
the ubiquitous annotation noise, a.k.a noisy correspondence (NC), thereby
inevitably leading to a performance drop. Although some methods attempt to
address such noise, they still face two challenging problems: excessive
memorizing/overfitting and unreliable correction for NC, especially under high
noise. To address the two problems, we propose a generalized Cross-modal Robust
Complementary Learning framework (CRCL), which benefits from a novel Active
Complementary Loss (ACL) and an efficient Self-refining Correspondence
Correction (SCC) to improve the robustness of existing methods. Specifically,
ACL exploits active and complementary learning losses to reduce the risk of
providing erroneous supervision, leading to theoretically and experimentally
demonstrated robustness against NC. SCC utilizes multiple self-refining
processes with momentum correction to enlarge the receptive field for
correcting correspondences, thereby alleviating error accumulation and
achieving accurate and stable corrections. We carry out extensive experiments
on three image-text benchmarks, i.e., Flickr30K, MS-COCO, and CC152K, to verify
the superior robustness of our CRCL against synthetic and real-world noisy
correspondences.
- Abstract(参考訳): 近年,画像テキストマッチングは,視覚的・テキスト的モダリティにまたがる潜在的対応を理解する上での基礎となる,学術・産業の注目を集めている。
しかし、既存のほとんどの手法は、ユビキタスアノテーションノイズ、すなわちノイズ対応(NC)を無視しながら、トレーニングペアがうまく一致していると暗黙的に仮定している。
このようなノイズに対処しようとする手法もあるが、過度な記憶/過度な適合と、特に高雑音下でのNCの信頼性の低い修正という2つの難しい問題に直面している。
そこで本研究では,既存の手法のロバスト性を改善するために,新しいacl(active complement loss)とscc(auto-refining correspondence correction)の恩恵を受ける汎用的なcrcl(cross-modal robust complement learning framework)を提案する。
特に、aclはアクティブで補完的な学習損失を利用して誤った監督を提供するリスクを低減し、理論的および実験的にncに対する堅牢性が実証される。
SCCは、モーメント補正を伴う複数の自己精製プロセスを利用して、対応を補正するために受容場を拡大し、エラーの蓄積を緩和し、正確で安定した補正を達成する。
我々は3つの画像テキストベンチマーク(Flickr30K, MS-COCO, CC152K)で広範な実験を行い、CRCLの合成および実世界の雑音対応に対する優れた堅牢性を検証する。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Confidence-Aware Document OCR Error Detection [1.003485566379789]
我々は,OCRシステム間の信頼度スコアと誤差率の相関関係を解析した。
我々は、OCR信頼スコアをトークン埋め込みに組み込むBERTベースのモデルConfBERTを開発した。
論文 参考訳(メタデータ) (2024-09-06T08:35:28Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering [8.382903851560595]
Scene-Text Visual Question Answering (ST-VQA) は、画像中のシーンテキストを理解し、テキストコンテンツに関連する質問に答えることを目的としている。
既存の手法の多くは光学文字認識(OCR)システムの精度に大きく依存している。
本研究では,空間認識機能を備えたマルチモーダル対向学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-14T11:22:06Z) - Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation [21.345548821276097]
クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。
我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。
CoSAは、追加の監督を持つものを含む、既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。
論文 参考訳(メタデータ) (2024-02-27T21:08:23Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。