論文の概要: CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2208.09843v1
- Date: Sun, 21 Aug 2022 08:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:23:12.245195
- Title: CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval
- Title(参考訳): CoDER: 画像テキスト検索のための多元性感性モーメントコントラスト学習
- Authors: Haoran Wang, Dongliang He, Wenhao Wu, Boyang Xia, Min Yang, Fu Li,
Yunlong Yu, Zhong Ji, Errui Ding, Jingdong Wang
- Abstract要約: クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
- 参考スコア(独自算出の注目度): 108.48540976175457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-Text Retrieval (ITR) is challenging in bridging visual and lingual
modalities. Contrastive learning has been adopted by most prior arts. Except
for limited amount of negative image-text pairs, the capability of constrastive
learning is restricted by manually weighting negative pairs as well as
unawareness of external knowledge. In this paper, we propose our novel Coupled
Diversity-Sensitive Momentum Constrastive Learning (CODER) for improving
cross-modal representation. Firstly, a novel diversity-sensitive contrastive
learning (DCL) architecture is invented. We introduce dynamic dictionaries for
both modalities to enlarge the scale of image-text pairs, and
diversity-sensitiveness is achieved by adaptive negative pair weighting.
Furthermore, two branches are designed in CODER. One learns instance-level
embeddings from image/text, and it also generates pseudo online clustering
labels for its input image/text based on their embeddings. Meanwhile, the other
branch learns to query from commonsense knowledge graph to form concept-level
descriptors for both modalities. Afterwards, both branches leverage DCL to
align the cross-modal embedding spaces while an extra pseudo clustering label
prediction loss is utilized to promote concept-level representation learning
for the second branch. Extensive experiments conducted on two popular
benchmarks, i.e. MSCOCO and Flicker30K, validate CODER remarkably outperforms
the state-of-the-art approaches.
- Abstract(参考訳): Image-Text Retrieval (ITR) は視覚的・言語的モダリティをブリッジする上で困難である。
コントラスト学習は、ほとんどの先行芸術で採用されている。
限定的な画像とテキストのペアを除いては、拘束学習の能力は、外部知識の無知だけでなく、手動で負のペアを重み付けすることで制限される。
本稿では,クロスモーダル表現を改善するために,共用多元性感性モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
まず、多様性に敏感な新しいコントラスト学習(DCL)アーキテクチャを考案する。
画像テキスト対のスケールを拡大するために動的辞書を導入し,適応的な負の重み付けによって多様性に敏感性を実現する。
さらに2つのブランチがCODERで設計されている。
画像/テキストからインスタンスレベルの埋め込みを学び、その埋め込みに基づいて入力画像/テキストの擬似オンラインクラスタリングラベルを生成する。
一方、他のブランチは、コモンセンス知識グラフからクエリを学習し、両方のモダリティのコンセプトレベルの記述子を形成する。
その後、両ブランチはDCLを利用してクロスモーダル埋め込み空間を整列し、さらに擬似クラスタリングラベル予測損失を利用して第2ブランチの概念レベルの表現学習を促進する。
mscocoとflicker30kという2つの人気のあるベンチマークで行った広範囲な実験は、最先端のアプローチを著しく上回っている。
関連論文リスト
- Dual-Level Cross-Modal Contrastive Clustering [4.083185193413678]
我々はDXMC(Dual-level Cross-Modal Contrastive Clustering)という画像クラスタリングフラムワークを提案する。
画像とテキストのペアを生成するために使用される意味空間を構築するために、外部テキスト情報が導入される。
予め訓練された画像とテキストエンコーダに画像とテキストのペアをそれぞれ送信し、4つのよく設計されたネットワークに次々に供給される画像とテキストの埋め込みを得る。
論文 参考訳(メタデータ) (2024-09-06T18:49:45Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Image-Text Retrieval with Binary and Continuous Label Supervision [38.682970905704906]
本稿では,BCLS(Binary and Continuous Label Supervision)を用いた画像テキスト検索フレームワークを提案する。
バイナリラベルの学習において,ソフトネガティブマイニング(Triplet-SN)による一般的なトリプルトランキングの損失を改善し,収束性を向上させる。
連続ラベルの学習のために,Kendallランク相関係数(Kendallランク相関係数)に着想を得たKendallランキングの損失を設計し,検索モデルと連続ラベルとの類似度スコアの相関性を改善する。
論文 参考訳(メタデータ) (2022-10-20T14:52:34Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。