論文の概要: Relieving Triplet Ambiguity: Consensus Network for Language-Guided Image
Retrieval
- arxiv url: http://arxiv.org/abs/2306.02092v1
- Date: Sat, 3 Jun 2023 11:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:14:51.981398
- Title: Relieving Triplet Ambiguity: Consensus Network for Language-Guided Image
Retrieval
- Title(参考訳): 三重項曖昧さの救済:言語誘導画像検索のための合意ネットワーク
- Authors: Xu Zhang, Zhedong Zheng, Xiaohan Wang, Yi Yang
- Abstract要約: 本稿では,三重項曖昧さの負の効果を最小限に抑えるために,雑音三重項から自己適応的に学習するコンセンサスネットワーク(Css-Net)を提案する。
Css-Net は三重項の曖昧さを軽減し、$2.77%$ R@10 や$6.67%$ R@50 といったベンチマークでの競争性能を達成できる。
- 参考スコア(独自算出の注目度): 48.914550252133125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-guided image retrieval enables users to search for images and
interact with the retrieval system more naturally and expressively by using a
reference image and a relative caption as a query. Most existing studies mainly
focus on designing image-text composition architecture to extract
discriminative visual-linguistic relations. Despite great success, we identify
an inherent problem that obstructs the extraction of discriminative features
and considerably compromises model training: \textbf{triplet ambiguity}. This
problem stems from the annotation process wherein annotators view only one
triplet at a time. As a result, they often describe simple attributes, such as
color, while neglecting fine-grained details like location and style. This
leads to multiple false-negative candidates matching the same modification
text. We propose a novel Consensus Network (Css-Net) that self-adaptively
learns from noisy triplets to minimize the negative effects of triplet
ambiguity. Inspired by the psychological finding that groups perform better
than individuals, Css-Net comprises 1) a consensus module featuring four
distinct compositors that generate diverse fused image-text embeddings and 2) a
Kullback-Leibler divergence loss, which fosters learning among the compositors,
enabling them to reduce biases learned from noisy triplets and reach a
consensus. The decisions from four compositors are weighted during evaluation
to further achieve consensus. Comprehensive experiments on three datasets
demonstrate that Css-Net can alleviate triplet ambiguity, achieving competitive
performance on benchmarks, such as $+2.77\%$ R@10 and $+6.67\%$ R@50 on
FashionIQ.
- Abstract(参考訳): 言語案内画像検索は、参照画像と相対キャプションをクエリとして使用することで、画像検索と検索システムとの対話をより自然かつ表現的に行うことができる。
既存の研究は主に、識別的視覚言語関係を抽出する画像テキスト合成アーキテクチャの設計に焦点を当てている。
大きな成功を収めたにも関わらず、識別的特徴の抽出を妨げる固有の問題を特定し、モデルのトレーニングをかなり損なうことになる。
この問題は、アノテーションが一度にトリプレットを1つだけ見るというアノテーションプロセスに起因する。
その結果、色などの単純な属性をしばしば記述し、位置やスタイルといった細かい細部を無視する。
これにより、同じ修正テキストにマッチする複数の偽陰性候補が発生する。
本稿では,三重項曖昧さの負の効果を最小限に抑えるために,雑音三重項から自己適応的に学習するコンセンサスネットワークを提案する。
グループのパフォーマンスが個人より優れているという心理的発見に触発されたcss-net
1)多様な画像テキスト埋め込みを生成する4つの異なるコンポジタを特徴とするコンセンサスモジュール
2)kullback-leiblerダイバージェンスロスは,コンポジタ間の学習を促進することで,ノイズ三重項から学習したバイアスを低減し,コンセンサスに達する。
4つのコンポジショナーによる決定は、さらなるコンセンサスを達成するために評価中に重み付けされる。
3つのデータセットに関する総合的な実験は、Css-Netが三重項の曖昧さを緩和し、+2.77\%$ R@10や$+6.67\%$ R@50といったベンチマーク上での競合性能を達成することを示した。
関連論文リスト
- Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Ranking-aware Uncertainty for Text-guided Image Retrieval [17.70430913227593]
本稿では,多対多対応をモデル化する新しいランキングアウェア不確実性手法を提案する。
既存の最先端手法と比較して,提案手法は2つの公開データセットに対して有意な結果が得られる。
論文 参考訳(メタデータ) (2023-08-16T03:48:19Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Image-Text Retrieval with Binary and Continuous Label Supervision [38.682970905704906]
本稿では,BCLS(Binary and Continuous Label Supervision)を用いた画像テキスト検索フレームワークを提案する。
バイナリラベルの学習において,ソフトネガティブマイニング(Triplet-SN)による一般的なトリプルトランキングの損失を改善し,収束性を向上させる。
連続ラベルの学習のために,Kendallランク相関係数(Kendallランク相関係数)に着想を得たKendallランキングの損失を設計し,検索モデルと連続ラベルとの類似度スコアの相関性を改善する。
論文 参考訳(メタデータ) (2022-10-20T14:52:34Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。