論文の概要: NCL-CIR: Noise-aware Contrastive Learning for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2504.04339v1
- Date: Sun, 06 Apr 2025 03:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:31.947140
- Title: NCL-CIR: Noise-aware Contrastive Learning for Composed Image Retrieval
- Title(参考訳): NCL-CIR:合成画像検索のための雑音対応コントラスト学習
- Authors: Peng Gao, Yujian Lee, Zailong Chen, Hui zhang, Xubo Liu, Yiyang Hu, Guquang Jing,
- Abstract要約: Composed Image Retrieval (CIR)は、画像と修正テキストを組み合わせてターゲットをピンポイントするマルチモーダルクエリを用いて、ターゲット画像の検索を試みる。
ペアは、不正確な修正テキスト、品質の低いターゲット画像、アノテーションエラーなどの問題により、部分的にあるいは完全に一致しないことが多い。
重み補償ブロック (WCB) と雑音対フィルタブロック (NFB) の2つの主要な構成要素からなるCIR (NCL-CIR) のためのノイズ対応コントラスト学習法を提案する。
- 参考スコア(独自算出の注目度): 16.460121977322224
- License:
- Abstract: Composed Image Retrieval (CIR) seeks to find a target image using a multi-modal query, which combines an image with modification text to pinpoint the target. While recent CIR methods have shown promise, they mainly focus on exploring relationships between the query pairs (image and text) through data augmentation or model design. These methods often assume perfect alignment between queries and target images, an idealized scenario rarely encountered in practice. In reality, pairs are often partially or completely mismatched due to issues like inaccurate modification texts, low-quality target images, and annotation errors. Ignoring these mismatches leads to numerous False Positive Pair (FFPs) denoted as noise pairs in the dataset, causing the model to overfit and ultimately reducing its performance. To address this problem, we propose the Noise-aware Contrastive Learning for CIR (NCL-CIR), comprising two key components: the Weight Compensation Block (WCB) and the Noise-pair Filter Block (NFB). The WCB coupled with diverse weight maps can ensure more stable token representations of multi-modal queries and target images. Meanwhile, the NFB, in conjunction with the Gaussian Mixture Model (GMM) predicts noise pairs by evaluating loss distributions, and generates soft labels correspondingly, allowing for the design of the soft-label based Noise Contrastive Estimation (NCE) loss function. Consequently, the overall architecture helps to mitigate the influence of mismatched and partially matched samples, with experimental results demonstrating that NCL-CIR achieves exceptional performance on the benchmark datasets.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、画像と修正テキストを組み合わせてターゲットをピンポイントするマルチモーダルクエリを用いて、ターゲット画像の検索を試みる。
最近のCIR手法は将来性を示しているが、主にデータ拡張やモデル設計を通じてクエリペア(画像とテキスト)間の関係を探究することに焦点を当てている。
これらの手法はしばしば、クエリとターゲットイメージの完全なアライメントを前提とします。
実際には、不正確な修正テキスト、品質の低いターゲット画像、アノテーションエラーなどの問題により、ペアは部分的にあるいは完全に一致しないことが多い。
これらのミスマッチを無視すると、多くの偽陽性ペア(FFP)がデータセット内のノイズペアとして表現され、モデルが過度に適合し、最終的にパフォーマンスが低下する。
この問題に対処するために,重み補償ブロック (WCB) とノイズペアフィルタブロック (NFB) の2つの主要コンポーネントからなる,CIR (NCL-CIR) のためのノイズ対応コントラスト学習法を提案する。
WCBと多様な重みマップを組み合わせることで、マルチモーダルクエリとターゲットイメージのより安定したトークン表現が保証される。
一方、NFBはガウス混合モデル(GMM)とともに損失分布を評価してノイズペアを予測し、それに応じたソフトラベルを生成し、ソフトラベルに基づくノイズコントラスト推定(NCE)損失関数の設計を可能にする。
その結果、全体的なアーキテクチャは、ミスマッチしたサンプルと部分的にマッチしたサンプルの影響を軽減するのに役立ち、NCL-CIRがベンチマークデータセット上で例外的なパフォーマンスを達成することを示す実験結果が得られた。
関連論文リスト
- Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Embedding contrastive unsupervised features to cluster in- and
out-of-distribution noise in corrupted image datasets [18.19216557948184]
Web画像検索に検索エンジンを使用することは、イメージデータセットを作成する際の手作業によるキュレーションに代わる誘惑的な手段である。
主な欠点は、回収された間違った(ノイズの多い)サンプルの割合である。
本稿では,教師なしのコントラスト特徴学習を用いた検出ステップから始める2段階のアルゴリズムを提案する。
比較学習のアライメントと均一性原理により,OODサンプルは単位超球面上のIDサンプルから線形に分離できることがわかった。
論文 参考訳(メタデータ) (2022-07-04T16:51:56Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Surrogate-based cross-correlation for particle image velocimetry [4.306143768014157]
本稿では,SBCC(Surrogate-based cross-correlation)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T02:45:42Z) - Residual Contrastive Learning for Joint Demosaicking and Denoising [49.81596361351967]
RAW画像,残差コントラスト学習(RCL)における新しいコントラスト学習手法を提案する。
本研究は,各RAW画像に含まれる雑音が信号に依存しているという仮定に基づいて構築した。
我々は、未知の(ランダムな)ノイズ分散を伴う教師なしJDDタスクに対する新しいベンチマークを設定した。
論文 参考訳(メタデータ) (2021-06-18T11:37:05Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z) - Fully Unsupervised Diversity Denoising with Convolutional Variational
Autoencoders [81.30960319178725]
完全畳み込み変分オートエンコーダ(VAE)に基づく復調手法であるDivNoisingを提案する。
まず, 撮像ノイズモデルをデコーダに明示的に組み込むことにより, 教師なしの雑音発生問題をVAEフレームワーク内に定式化する手法を提案する。
このようなノイズモデルは、ノイズの多いデータから測定したり、ブートストラップしたり、トレーニング中に共同学習したりすることが可能である。
論文 参考訳(メタデータ) (2020-06-10T21:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。