論文の概要: Relieving Triplet Ambiguity: Consensus Network for Language-Guided Image
Retrieval
- arxiv url: http://arxiv.org/abs/2306.02092v1
- Date: Sat, 3 Jun 2023 11:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:14:51.981398
- Title: Relieving Triplet Ambiguity: Consensus Network for Language-Guided Image
Retrieval
- Title(参考訳): 三重項曖昧さの救済:言語誘導画像検索のための合意ネットワーク
- Authors: Xu Zhang, Zhedong Zheng, Xiaohan Wang, Yi Yang
- Abstract要約: 本稿では,三重項曖昧さの負の効果を最小限に抑えるために,雑音三重項から自己適応的に学習するコンセンサスネットワーク(Css-Net)を提案する。
Css-Net は三重項の曖昧さを軽減し、$2.77%$ R@10 や$6.67%$ R@50 といったベンチマークでの競争性能を達成できる。
- 参考スコア(独自算出の注目度): 48.914550252133125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-guided image retrieval enables users to search for images and
interact with the retrieval system more naturally and expressively by using a
reference image and a relative caption as a query. Most existing studies mainly
focus on designing image-text composition architecture to extract
discriminative visual-linguistic relations. Despite great success, we identify
an inherent problem that obstructs the extraction of discriminative features
and considerably compromises model training: \textbf{triplet ambiguity}. This
problem stems from the annotation process wherein annotators view only one
triplet at a time. As a result, they often describe simple attributes, such as
color, while neglecting fine-grained details like location and style. This
leads to multiple false-negative candidates matching the same modification
text. We propose a novel Consensus Network (Css-Net) that self-adaptively
learns from noisy triplets to minimize the negative effects of triplet
ambiguity. Inspired by the psychological finding that groups perform better
than individuals, Css-Net comprises 1) a consensus module featuring four
distinct compositors that generate diverse fused image-text embeddings and 2) a
Kullback-Leibler divergence loss, which fosters learning among the compositors,
enabling them to reduce biases learned from noisy triplets and reach a
consensus. The decisions from four compositors are weighted during evaluation
to further achieve consensus. Comprehensive experiments on three datasets
demonstrate that Css-Net can alleviate triplet ambiguity, achieving competitive
performance on benchmarks, such as $+2.77\%$ R@10 and $+6.67\%$ R@50 on
FashionIQ.
- Abstract(参考訳): 言語案内画像検索は、参照画像と相対キャプションをクエリとして使用することで、画像検索と検索システムとの対話をより自然かつ表現的に行うことができる。
既存の研究は主に、識別的視覚言語関係を抽出する画像テキスト合成アーキテクチャの設計に焦点を当てている。
大きな成功を収めたにも関わらず、識別的特徴の抽出を妨げる固有の問題を特定し、モデルのトレーニングをかなり損なうことになる。
この問題は、アノテーションが一度にトリプレットを1つだけ見るというアノテーションプロセスに起因する。
その結果、色などの単純な属性をしばしば記述し、位置やスタイルといった細かい細部を無視する。
これにより、同じ修正テキストにマッチする複数の偽陰性候補が発生する。
本稿では,三重項曖昧さの負の効果を最小限に抑えるために,雑音三重項から自己適応的に学習するコンセンサスネットワークを提案する。
グループのパフォーマンスが個人より優れているという心理的発見に触発されたcss-net
1)多様な画像テキスト埋め込みを生成する4つの異なるコンポジタを特徴とするコンセンサスモジュール
2)kullback-leiblerダイバージェンスロスは,コンポジタ間の学習を促進することで,ノイズ三重項から学習したバイアスを低減し,コンセンサスに達する。
4つのコンポジショナーによる決定は、さらなるコンセンサスを達成するために評価中に重み付けされる。
3つのデータセットに関する総合的な実験は、Css-Netが三重項の曖昧さを緩和し、+2.77\%$ R@10や$+6.67\%$ R@50といったベンチマーク上での競合性能を達成することを示した。
関連論文リスト
- Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。
RDEは2つの主要なコンポーネントから構成される: 1) 信頼合意部(CCD)モジュールは、二重埋め込みモジュールの二重きめ細かい決定を利用して、クリーンなトレーニングデータのコンセンサスセットを得る。
我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Ranking-aware Uncertainty for Text-guided Image Retrieval [17.70430913227593]
本稿では,多対多対応をモデル化する新しいランキングアウェア不確実性手法を提案する。
既存の最先端手法と比較して,提案手法は2つの公開データセットに対して有意な結果が得られる。
論文 参考訳(メタデータ) (2023-08-16T03:48:19Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。