論文の概要: Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations
- arxiv url: http://arxiv.org/abs/2306.02092v2
- Date: Tue, 3 Sep 2024 08:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:54:55.286700
- Title: Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations
- Title(参考訳): 協調グループ:雑音アノテーションからの合意学習による画像検索
- Authors: Xu Zhang, Zhedong Zheng, Linchao Zhu, Yi Yang,
- Abstract要約: 我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
- 参考スコア(独自算出の注目度): 67.92679668612858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed image retrieval extends content-based image retrieval systems by enabling users to search using reference images and captions that describe their intention. Despite great progress in developing image-text compositors to extract discriminative visual-linguistic features, we identify a hitherto overlooked issue, triplet ambiguity, which impedes robust feature extraction. Triplet ambiguity refers to a type of semantic ambiguity that arises between the reference image, the relative caption, and the target image. It is mainly due to the limited representation of the annotated text, resulting in many noisy triplets where multiple visually dissimilar candidate images can be matched to an identical reference pair (i.e., a reference image + a relative caption). To address this challenge, we propose the Consensus Network (Css-Net), inspired by the psychological concept that groups outperform individuals. Css-Net comprises two core components: (1) a consensus module with four diverse compositors, each generating distinct image-text embeddings, fostering complementary feature extraction and mitigating dependence on any single, potentially biased compositor; (2) a Kullback-Leibler divergence loss that encourages learning of inter-compositor interactions to promote consensual outputs. During evaluation, the decisions of the four compositors are combined through a weighting scheme, enhancing overall agreement. On benchmark datasets, particularly FashionIQ, Css-Net demonstrates marked improvements. Notably, it achieves significant recall gains, with a 2.77% increase in R@10 and 6.67% boost in R@50, underscoring its competitiveness in addressing the fundamental limitations of existing methods.
- Abstract(参考訳): コンポジション画像検索は,ユーザの意図を記述した参照画像やキャプションを検索することで,コンテンツベースの画像検索システムを拡張する。
識別的視覚言語的特徴を抽出する画像テキスト合成装置の開発において大きな進歩があったが, 難解な問題である三重項曖昧さが特徴抽出の頑健さを損なう。
トリプルト曖昧性(トリプルトあいさ、英: Triplet ambiguity)とは、参照画像、相対キャプション、ターゲット画像の間に生じる意味あいさの一種である。
主に注釈付きテキストの表現が限られているため、複数の視覚的に異なる候補画像が同一の参照対(つまり、参照画像+相対キャプション)にマッチできる、ノイズの多い三つ子が多い。
この課題に対処するために,集団が個人を上回る心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは, コンセンサスモジュールと4つのコンセンサスモジュールから構成され, それぞれ異なる画像テキストの埋め込みを生成し, 相補的特徴抽出の促進, バイアスのあるコンセンサスへの依存性の緩和, コンセンサス出力を促進するためのコンセンサス相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
評価中、4つのコンプレッサーの判断は重み付け方式によって組み合わせられ、全体的な合意が強化される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。
特に、R@10が2.77%、R@50が6.67%増加し、既存の手法の基本的な限界に対処する際の競争力を強調している。
関連論文リスト
- Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Ranking-aware Uncertainty for Text-guided Image Retrieval [17.70430913227593]
本稿では,多対多対応をモデル化する新しいランキングアウェア不確実性手法を提案する。
既存の最先端手法と比較して,提案手法は2つの公開データセットに対して有意な結果が得られる。
論文 参考訳(メタデータ) (2023-08-16T03:48:19Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Image-Text Retrieval with Binary and Continuous Label Supervision [38.682970905704906]
本稿では,BCLS(Binary and Continuous Label Supervision)を用いた画像テキスト検索フレームワークを提案する。
バイナリラベルの学習において,ソフトネガティブマイニング(Triplet-SN)による一般的なトリプルトランキングの損失を改善し,収束性を向上させる。
連続ラベルの学習のために,Kendallランク相関係数(Kendallランク相関係数)に着想を得たKendallランキングの損失を設計し,検索モデルと連続ラベルとの類似度スコアの相関性を改善する。
論文 参考訳(メタデータ) (2022-10-20T14:52:34Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。