論文の概要: Noisy-Correspondence Learning for Text-to-Image Person Re-identification
- arxiv url: http://arxiv.org/abs/2308.09911v1
- Date: Sat, 19 Aug 2023 05:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:10:31.161104
- Title: Noisy-Correspondence Learning for Text-to-Image Person Re-identification
- Title(参考訳): 人物識別のための雑音対応学習
- Authors: Yang Qin, Yingke Chen, Dezhong Peng, Xi Peng, Joey Tianyi Zhou, and
Peng Hu
- Abstract要約: 本稿では,雑音対応においても頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。
RDEは2つの主要なコンポーネントから構成される: 1) 信頼合意部(CCD)モジュールは、二重埋め込みモジュールの二重きめ細かい決定を利用して、クリーンなトレーニングデータのコンセンサスセットを得る。
我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。
- 参考スコア(独自算出の注目度): 50.07634676709067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image person re-identification (TIReID) is a compelling topic in the
cross-modal community, which aims to retrieve the target person based on a
textual query. Although numerous TIReID methods have been proposed and achieved
promising performance, they implicitly assume the training image-text pairs are
correctly aligned, which is not always the case in real-world scenarios. In
practice, the image-text pairs inevitably exist under-correlated or even
false-correlated, a.k.a noisy correspondence (NC), due to the low quality of
the images and annotation errors. To address this problem, we propose a novel
Robust Dual Embedding method (RDE) that can learn robust visual-semantic
associations even with NC. Specifically, RDE consists of two main components:
1) A Confident Consensus Division (CCD) module that leverages the dual-grained
decisions of dual embedding modules to obtain a consensus set of clean training
data, which enables the model to learn correct and reliable visual-semantic
associations. 2) A Triplet-Alignment Loss (TAL) relaxes the conventional
triplet-ranking loss with hardest negatives, which tends to rapidly overfit NC,
to a log-exponential upper bound over all negatives, thus preventing the model
from overemphasizing false image-text pairs. We conduct extensive experiments
on three public benchmarks, namely CUHK-PEDES, ICFG-PEDES, and RSTPReID, to
evaluate the performance and robustness of our RDE. Our method achieves
state-of-the-art results both with and without synthetic noisy correspondences
on all three datasets.
- Abstract(参考訳): テキスト・ツー・イメージ・パーソン・リアイデンティティ(TIReID)は,テキスト・クエリーに基づいて対象者を検索することを目的とした,クロスモーダル・コミュニティにおいて魅力的なトピックである。
多くのTIReID手法が提案され、有望な性能を達成したが、実世界のシナリオでは必ずしもそうではないため、トレーニング画像とテキストのペアが正しく一致していると暗黙的に仮定している。
実際、画像とテキストのペアは、画像の低品質とアノテーションエラーのため、必然的に非相関または偽相関、すなわち雑音対応(nc)が存在する。
この問題を解決するために,NCでも頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。
具体的には、RDEは2つの主要コンポーネントから構成される。
1) 2重埋め込みモジュールの二重きめ細かな決定を活用してクリーンなトレーニングデータのコンセンサスセットを得る信頼性コンセンサスディビジョン(CCD)モジュールにより、モデルが正確で信頼性の高い視覚的セマンティックアソシエーションを学習できるようにする。
2) trit-alignment loss(tal)は、ncを急速に過大化する傾向がある従来の3重項損失を、すべての負値に対する対指数上限に緩和するので、モデルが偽画像テキストペアを過大に強調することを防止する。
我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。
提案手法は,3つのデータセットの合成ノイズ対応と非合成ノイズ対応を両立させる。
関連論文リスト
- Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept
Reranking [38.564888571096866]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
本稿では,TFCIR(Training-free zero-shot Composed Image Retrieval)法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Relieving Triplet Ambiguity: Consensus Network for Language-Guided Image
Retrieval [48.914550252133125]
本稿では,三重項曖昧さの負の効果を最小限に抑えるために,雑音三重項から自己適応的に学習するコンセンサスネットワーク(Css-Net)を提案する。
Css-Net は三重項の曖昧さを軽減し、$2.77%$ R@10 や$6.67%$ R@50 といったベンチマークでの競争性能を達成できる。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information
Retrieval [0.4264192013842096]
Visual Semantic Embedding (VSE)は、画像の意味と記述を抽出し、それらを同じ潜在空間に埋め込んで情報検索を行う。
既存のほとんどのVSEネットワークは、関連する画像記述組込みペアの類似性と無関係な画像記述組込みペアの客観的なマージンを学習するハードネガティブ損失関数を採用することで訓練されている。
本稿では,(1)画像記述の基盤となるセマンティクスの発見,(2)新たなセマンティクス強化型ハードネガティブ損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:09:39Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。