論文の概要: Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations
- arxiv url: http://arxiv.org/abs/2306.02092v2
- Date: Tue, 3 Sep 2024 08:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:54:55.286700
- Title: Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations
- Title(参考訳): 協調グループ:雑音アノテーションからの合意学習による画像検索
- Authors: Xu Zhang, Zhedong Zheng, Linchao Zhu, Yi Yang,
- Abstract要約: 我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
- 参考スコア(独自算出の注目度): 67.92679668612858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed image retrieval extends content-based image retrieval systems by enabling users to search using reference images and captions that describe their intention. Despite great progress in developing image-text compositors to extract discriminative visual-linguistic features, we identify a hitherto overlooked issue, triplet ambiguity, which impedes robust feature extraction. Triplet ambiguity refers to a type of semantic ambiguity that arises between the reference image, the relative caption, and the target image. It is mainly due to the limited representation of the annotated text, resulting in many noisy triplets where multiple visually dissimilar candidate images can be matched to an identical reference pair (i.e., a reference image + a relative caption). To address this challenge, we propose the Consensus Network (Css-Net), inspired by the psychological concept that groups outperform individuals. Css-Net comprises two core components: (1) a consensus module with four diverse compositors, each generating distinct image-text embeddings, fostering complementary feature extraction and mitigating dependence on any single, potentially biased compositor; (2) a Kullback-Leibler divergence loss that encourages learning of inter-compositor interactions to promote consensual outputs. During evaluation, the decisions of the four compositors are combined through a weighting scheme, enhancing overall agreement. On benchmark datasets, particularly FashionIQ, Css-Net demonstrates marked improvements. Notably, it achieves significant recall gains, with a 2.77% increase in R@10 and 6.67% boost in R@50, underscoring its competitiveness in addressing the fundamental limitations of existing methods.
- Abstract(参考訳): コンポジション画像検索は,ユーザの意図を記述した参照画像やキャプションを検索することで,コンテンツベースの画像検索システムを拡張する。
識別的視覚言語的特徴を抽出する画像テキスト合成装置の開発において大きな進歩があったが, 難解な問題である三重項曖昧さが特徴抽出の頑健さを損なう。
トリプルト曖昧性(トリプルトあいさ、英: Triplet ambiguity)とは、参照画像、相対キャプション、ターゲット画像の間に生じる意味あいさの一種である。
主に注釈付きテキストの表現が限られているため、複数の視覚的に異なる候補画像が同一の参照対(つまり、参照画像+相対キャプション)にマッチできる、ノイズの多い三つ子が多い。
この課題に対処するために,集団が個人を上回る心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは, コンセンサスモジュールと4つのコンセンサスモジュールから構成され, それぞれ異なる画像テキストの埋め込みを生成し, 相補的特徴抽出の促進, バイアスのあるコンセンサスへの依存性の緩和, コンセンサス出力を促進するためのコンセンサス相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
評価中、4つのコンプレッサーの判断は重み付け方式によって組み合わせられ、全体的な合意が強化される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。
特に、R@10が2.77%、R@50が6.67%増加し、既存の手法の基本的な限界に対処する際の競争力を強調している。
関連論文リスト
- Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Ranking-aware Uncertainty for Text-guided Image Retrieval [17.70430913227593]
本稿では,多対多対応をモデル化する新しいランキングアウェア不確実性手法を提案する。
既存の最先端手法と比較して,提案手法は2つの公開データセットに対して有意な結果が得られる。
論文 参考訳(メタデータ) (2023-08-16T03:48:19Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。