論文の概要: Disentangled Noisy Correspondence Learning
- arxiv url: http://arxiv.org/abs/2408.05503v1
- Date: Sat, 10 Aug 2024 09:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:41:36.308665
- Title: Disentangled Noisy Correspondence Learning
- Title(参考訳): 遠方性雑音対応学習
- Authors: Zhuohang Dang, Minnan Luo, Jihong Wang, Chengyou Jia, Haochen Han, Herun Wan, Guang Dai, Xiaojun Chang, Jingdong Wang,
- Abstract要約: クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
- 参考スコア(独自算出の注目度): 56.06801962154915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval is crucial in understanding latent correspondences across modalities. However, existing methods implicitly assume well-matched training data, which is impractical as real-world data inevitably involves imperfect alignments, i.e., noisy correspondences. Although some works explore similarity-based strategies to address such noise, they suffer from sub-optimal similarity predictions influenced by modality-exclusive information (MEI), e.g., background noise in images and abstract definitions in texts. This issue arises as MEI is not shared across modalities, thus aligning it in training can markedly mislead similarity predictions. Moreover, although intuitive, directly applying previous cross-modal disentanglement methods suffers from limited noise tolerance and disentanglement efficacy. Inspired by the robustness of information bottlenecks against noise, we introduce DisNCL, a novel information-theoretic framework for feature Disentanglement in Noisy Correspondence Learning, to adaptively balance the extraction of MII and MEI with certifiable optimal cross-modal disentanglement efficacy. DisNCL then enhances similarity predictions in modality-invariant subspace, thereby greatly boosting similarity-based alleviation strategy for noisy correspondences. Furthermore, DisNCL introduces soft matching targets to model noisy many-to-many relationships inherent in multi-modal input for noise-robust and accurate cross-modal alignment. Extensive experiments confirm DisNCL's efficacy by 2% average recall improvement. Mutual information estimation and visualization results show that DisNCL learns meaningful MII/MEI subspaces, validating our theoretical analyses.
- Abstract(参考訳): クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
しかし、既存の手法では、実世界のデータとして必然的に不完全なアライメント、すなわちノイズ対応を含む、十分に整合したトレーニングデータを暗黙的に仮定する。
このようなノイズに対処するための類似性に基づく戦略を検討する研究もあるが、モダリティ排他的情報(MEI)、画像の背景雑音、テキストの抽象的定義の影響を受け、準最適類似性予測に悩まされている。
この問題は、MEIがモダリティ間で共有されないため、トレーニングでそれを整列させることで、類似性の予測を著しく誤解させる可能性があるためである。
さらに, 直感的ではあるが, 従来のクロスモーダル・アンタングル法を直接適用することは, 耐雑音性とアンタングル効果の制限に悩まされる。
雑音に対する情報のボトルネックの頑健さに着想を得て,ノイズ対応学習における特徴分散のための新しい情報理論フレームワークであるDisNCLを導入し,MIIとMEIの抽出と最適なクロスモーダル・ディハンギングの有効性を適応的にバランスさせる。
DisNCLはその後、モジュラリティ不変部分空間における類似性予測を強化し、ノイズ対応に対する類似性に基づく緩和戦略を大幅に強化する。
さらに、DisNCLは、ノイズ・ロバストおよび正確なクロスモーダルアライメントのためのマルチモーダル入力に固有のノイズの多い多対多の関係をモデル化するために、ソフトマッチングターゲットを導入している。
広範囲な実験により、DisNCLの有効性は平均リコール改善率2%で確認された。
相互情報推定と可視化の結果から,DisNCLは意味のあるMII/MEI部分空間を学習し,理論解析を検証した。
関連論文リスト
- Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Enhancing Contrastive Learning with Noise-Guided Attack: Towards
Continual Relation Extraction in the Wild [57.468184469589744]
我々はtextbfContrative textbfLearning(NaCL) における textbfNoise-guided textbf attack という名前の耐雑音性コントラストフレームワークを開発する。
直接雑音除去や到達不能雑音回避と比較して,攻撃により与えられた雑音ラベルに一致するように特徴空間を変更する。
論文 参考訳(メタデータ) (2023-05-11T18:48:18Z) - Noisy Correspondence Learning with Meta Similarity Correction [22.90696057856008]
マルチモーダル学習は マルチメディアデータ間の 正しい対応に依存しています
最も広く使われているデータセットはインターネットから収集され、必然的にミスマッチしたペアを含んでいる。
本稿では,Meta similarity Correction Network(MSCN)を提案する。
論文 参考訳(メタデータ) (2023-04-13T05:20:45Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Reinforcement Learning-powered Semantic Communication via Semantic
Similarity [13.569045590522316]
我々は,ビットレベルの精度を厳格に確保する代わりに,セマンティック情報を保存するための新しいセマンティックコミュニケーション機構を導入する。
一般的に使用されるビットレベルのメトリクスは、重要な意味や構造を捉えるのに脆弱であることを示す。
ユーザ定義のセマンティック測定を同時に最適化できる強化学習(RL)ベースのソリューションを提案しました。
論文 参考訳(メタデータ) (2021-08-27T05:21:05Z) - Meta Transition Adaptation for Robust Deep Learning with Noisy Labels [61.8970957519509]
本研究では,新しいメタ遷移学習戦略を提案する。
具体的には、クリーンなラベル付きメタデータの小さなセットのサウンドガイダンスにより、ノイズ遷移行列と分類器パラメータを相互に改善することができる。
本手法は, 従来技術よりも頑健な性能で, 遷移行列をより正確に抽出することができる。
論文 参考訳(メタデータ) (2020-06-10T07:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。