論文の概要: ConeSep: Cone-based Robust Noise-Unlearning Compositional Network for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.20358v1
- Date: Wed, 22 Apr 2026 08:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.054508
- Title: ConeSep: Cone-based Robust Noise-Unlearning Compositional Network for Composed Image Retrieval
- Title(参考訳): ConeSep:合成画像検索のためのコーンベースロバスト雑音学習合成ネットワーク
- Authors: Zixu Li, Yupeng Hu, Zhiwei Chen, Mingyu Zhang, Zhiheng Fu, Liqiang Nie,
- Abstract要約: 本稿では,アノテーションによるノイズトリプル対応 (NTC) 問題を系統的に検討する。
我々は,これらの課題に対処するために,コーンベースのrobuSt noisE-unlearning comPositional network (ConeSep)を提案する。
- 参考スコア(独自算出の注目度): 60.051600134831226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Composed Image Retrieval (CIR) task provides a flexible retrieval paradigm via a reference image and modification text, but it heavily relies on expensive and error-prone triplet annotations. This paper systematically investigates the Noisy Triplet Correspondence (NTC) problem introduced by annotations. We find that NTC noise, particularly ``hard noise'' (i.e., the reference and target images are highly similar but the modification text is incorrect), poses a unique challenge to existing Noise Correspondence Learning (NCL) methods because it breaks the traditional ``small loss hypothesis''. We identify and elucidate three key, yet overlooked, challenges in the NTC task, namely (C1) Modality Suppression, (C2) Negative Anchor Deficiency, and (C3) Unlearning Backlash. To address these challenges, we propose a Cone-based robuSt noisE-unlearning comPositional network (ConeSep). Specifically, we first propose Geometric Fidelity Quantization, theoretically establishing and practically estimating a noise boundary to precisely locate noisy correspondence. Next, we introduce Negative Boundary Learning, which learns a ``diagonal negative combination'' for each query as its explicit semantic opposite-anchor in the embedding space. Finally, we design Boundary-based Targeted Unlearning, which models the noisy correction process as an optimal transport problem, elegantly avoiding Unlearning Backlash. Extensive experiments on benchmark datasets (FashionIQ and CIRR) demonstrate that ConeSep significantly outperforms current state-of-the-art methods, which fully demonstrates the effectiveness and robustness of our method.
- Abstract(参考訳): Composed Image Retrieval (CIR) タスクは参照画像と修正テキストを通じて柔軟な検索パラダイムを提供するが、高価でエラーを起こしやすい三重項アノテーションに大きく依存している。
本稿では,アノテーションによるノイズトリプル対応 (NTC) 問題を系統的に検討する。
NTCノイズ、特に「ハードノイズ」(参照画像とターゲット画像は極めて類似しているが修正テキストは誤り)は、従来の「小さい損失仮説」を破り、既存のノイズ対応学習(NCL)手法に固有の課題をもたらす。
我々は,NTCタスクにおける3つの重要な課題,すなわち (C1) Modality Suppression, (C2) 負のアンカー障害, (C3) 未学習のバックラッシュを特定し,解明する。
これらの課題に対処するため,我々はConeSep(ConeSep)を用いたrobuSt noisE-unlearning comPositional networkを提案する。
具体的には、まず、ノイズ境界を理論的に推定し、ノイズの対応を正確に特定する幾何学的フィデリティ量子化を提案する。
次に、負境界学習を導入し、各クエリの'対角的負の組合せ'を、埋め込み空間におけるその明示的なセマンティックアンカーとして学習する。
最後に,境界に基づくTargeted Unlearningを設計し,ノイズ補正プロセスを最適な輸送問題としてモデル化し,Unlearning Backlashをエレガントに回避する。
ベンチマークデータセット(FashionIQとCIRR)の大規模な実験により、ConeSepは現在の最先端手法よりも大幅に優れており、この手法の有効性とロバスト性を十分に示している。
関連論文リスト
- INTENT: Invariance and Discrimination-aware Noise Mitigation for Robust Composed Image Retrieval [33.738463561724444]
我々は、合成画像検索(CIR)における雑音を、クロスモーダル対応ノイズとモーダル独立ノイズの2つのタイプに分類できると主張している。
後者はモダリティにまたがるミスマッチから生じるが、後者は粗い修正アノテーションとは無関係に、モダリティ内背景干渉や視覚的要因から生じる。
Invariance and discrimiNaTion-awarE noise neTwork (INTENT)を提案する。
論文 参考訳(メタデータ) (2026-04-20T10:19:07Z) - HABIT: Chrono-Synergia Robust Progressive Learning Framework for Composed Image Retrieval [32.85064790572752]
Composed Image Retrieval (CIR) はフレキシブルな画像検索パラダイムであり、ユーザーがターゲット画像の正確な位置を特定することができる。
本稿では、合成画像検索(HABIT)のためのcHrono-synergiA roBustプログレッシブIve学習フレームワークを提案する。
2つの標準CIRデータセットで実施された実験により、HABITは様々なノイズ比でほとんどの手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-20T10:02:18Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。