論文の概要: Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2512.24064v1
- Date: Tue, 30 Dec 2025 08:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.322593
- Title: Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval
- Title(参考訳): クロスモーダル検索のためのノイズラベルによる隣り合わせのインスタンス精錬
- Authors: Yizhi Liu, Ruitao Pu, Shilin Xu, Yingke Chen, Quan-Hui Liu, Yuan Sun,
- Abstract要約: CMR(Cross-Modal Retrieval)はマルチモーダル解析の分野で大きな進歩を遂げている。
CMR法は、モデル性能天井、校正信頼性、データ利用率を同時に満たさないことが多い。
我々は,Nighbor-aware Instance Refining with Noisy Labels (NIRNL) という,より堅牢なクロスモーダル学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.062625455647265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Cross-Modal Retrieval (CMR) has made significant progress in the field of multi-modal analysis. However, since it is time-consuming and labor-intensive to collect large-scale and well-annotated data, the annotation of multi-modal data inevitably contains some noise. This will degrade the retrieval performance of the model. To tackle the problem, numerous robust CMR methods have been developed, including robust learning paradigms, label calibration strategies, and instance selection mechanisms. Unfortunately, they often fail to simultaneously satisfy model performance ceilings, calibration reliability, and data utilization rate. To overcome the limitations, we propose a novel robust cross-modal learning framework, namely Neighbor-aware Instance Refining with Noisy Labels (NIRNL). Specifically, we first propose Cross-modal Margin Preserving (CMP) to adjust the relative distance between positive and negative pairs, thereby enhancing the discrimination between sample pairs. Then, we propose Neighbor-aware Instance Refining (NIR) to identify pure subset, hard subset, and noisy subset through cross-modal neighborhood consensus. Afterward, we construct different tailored optimization strategies for this fine-grained partitioning, thereby maximizing the utilization of all available data while mitigating error propagation. Extensive experiments on three benchmark datasets demonstrate that NIRNL achieves state-of-the-art performance, exhibiting remarkable robustness, especially under high noise rates.
- Abstract(参考訳): 近年,CMR(Cross-Modal Retrieval)は多モード解析の分野で大きな進歩を遂げている。
しかし、大規模な注釈付きデータを集めるのに時間と労力がかかるため、マルチモーダルデータのアノテーションには必然的にノイズが含まれている。
これにより、モデルの検索性能が低下する。
この問題に対処するため、堅牢な学習パラダイム、ラベル校正戦略、インスタンス選択機構など、数多くの堅牢なCMR手法が開発されている。
残念ながら、それらはモデルパフォーマンスの天井、キャリブレーションの信頼性、データ利用率を同時に満たさないことが多い。
この制限を克服するために,Nighbor-aware Instance Refining with Noisy Labels (NIRNL) という,より堅牢なクロスモーダル学習フレームワークを提案する。
具体的には、まず、正対と負対の相対距離を調整し、サンプル対の識別を向上させるクロスモーダルマージン保存法(CMP)を提案する。
そこで我々はNIR(Neighbor-aware Instance Refining)を提案する。
その後、この細粒度分割のための様々な最適化戦略を構築し、エラー伝搬を軽減しつつ、利用可能なすべてのデータの利用を最大化する。
3つのベンチマークデータセットに対する大規模な実験は、NIRNLが最先端のパフォーマンスを達成し、特に高いノイズ率で顕著な堅牢性を示すことを示している。
関連論文リスト
- Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T16:11:10Z) - MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。
DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。
本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T13:57:59Z) - Regression Augmentation With Data-Driven Segmentation [0.0]
不均衡回帰は、ターゲット分布が歪んだときに発生し、モデルが密度の高い領域に集中し、表現不足の(マイノリティ)サンプルと競合する原因となる。
本稿では,Mahalanobis-Gaussian Mixture Modeling (GMM) を用いて,マイノリティサンプルの自動同定を行う,完全なデータ駆動型GANベースの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T18:12:11Z) - Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios [76.02688769599686]
本稿では,AIRMVCと呼ばれるノイズデータの自動識別と修正のための新しいマルチビュークラスタリングフレームワークを提案する。
具体的には,GMMを用いて雑音識別を異常識別問題として再構成する。
次に,同定結果に基づいて,ノイズデータの悪影響を軽減するためのハイブリッド補正戦略を設計する。
論文 参考訳(メタデータ) (2025-05-27T16:16:54Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels [22.2715520667186]
クロスモーダル検索(CMR)は、異なるモーダル間の相互作用を確立することを目的としている。
本研究は,ロバスト・クロスモーダル検索のための最適輸送(OT)に基づく統一フレームワークであるUTT-RCLを提案する。
広範に使用されている3つのクロスモーダル検索データセットの実験は、我々のOT-RCLが最先端のアプローチを超越していることを示している。
論文 参考訳(メタデータ) (2024-03-20T10:34:40Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。