論文の概要: USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2301.06844v1
- Date: Tue, 17 Jan 2023 12:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 14:21:06.246522
- Title: USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval
- Title(参考訳): USER: 画像テキスト検索のためのMomentum Contrastを用いた統合セマンティックエンハンスメント
- Authors: Yan Zhang, Zhong Ji, Di Wang, Yanwei Pang, Xuelong Li
- Abstract要約: Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
- 参考スコア(独自算出の注目度): 115.28586222748478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental and challenging task in bridging language and vision
domains, Image-Text Retrieval (ITR) aims at searching for the target instances
that are semantically relevant to the given query from the other modality, and
its key challenge is to measure the semantic similarity across different
modalities. Although significant progress has been achieved, existing
approaches typically suffer from two major limitations: (1) It hurts the
accuracy of the representation by directly exploiting the bottom-up attention
based region-level features where each region is equally treated. (2) It limits
the scale of negative sample pairs by employing the mini-batch based end-to-end
training mechanism. To address these limitations, we propose a Unified Semantic
Enhancement Momentum Contrastive Learning (USER) method for ITR. Specifically,
we delicately design two simple but effective Global representation based
Semantic Enhancement (GSE) modules. One learns the global representation via
the self-attention algorithm, noted as Self-Guided Enhancement (SGE) module.
The other module benefits from the pre-trained CLIP module, which provides a
novel scheme to exploit and transfer the knowledge from an off-the-shelf model,
noted as CLIP-Guided Enhancement (CGE) module. Moreover, we incorporate the
training mechanism of MoCo into ITR, in which two dynamic queues are employed
to enrich and enlarge the scale of negative sample pairs. Meanwhile, a Unified
Training Objective (UTO) is developed to learn from mini-batch based and
dynamic queue based samples. Extensive experiments on the benchmark MSCOCO and
Flickr30K datasets demonstrate the superiority of both retrieval accuracy and
inference efficiency. Our source code will be released at
https://github.com/zhangy0822/USER.
- Abstract(参考訳): 言語と視覚領域をブリッジする基本的な課題として、Image-Text Retrieval(ITR)は、与えられたクエリに他のモダリティから意味的に関連するターゲットインスタンスを探すことを目的としており、その主な課題は、異なるモダリティ間での意味的類似性を測定することである。
1)各領域が等しく扱われるボトムアップの注意に基づく領域レベルの特徴を直接利用することにより、表現の正確さを損なう。
2) ミニバッチに基づくエンドツーエンドトレーニング機構を用いることで, 負のサンプル対のスケールを制限する。
これらの制約に対処するために, ITR のための統一セマンティック・エンハンスメント・モメンタム・コントラシブ・ラーニング (USER) 手法を提案する。
具体的には、2つの単純かつ効果的なグローバル表現ベースセマンティックエンハンスメント(gse)モジュールを繊細に設計する。
自己注意アルゴリズム(Self-Guided Enhancement (SGE)モジュール)を通じてグローバル表現を学習する。
他のモジュールはプリトレーニングされたクリップモジュールの利点であり、クリップガイド拡張(cge)モジュールと呼ばれる既製のモデルから知識を活用し、転送するための新しいスキームを提供する。
さらに,MoCoのトレーニング機構をITRに組み込んで,2つの動的キューを用いて負のサンプルペアのスケールを拡張・拡大する。
一方,ミニバッチベースおよび動的キューベースサンプルから学習するための統一トレーニング目標(uto)が開発された。
ベンチマークMSCOCOとFlickr30Kデータセットの大規模な実験は、検索精度と推論効率の両方の優位性を示している。
ソースコードはhttps://github.com/zhangy0822/userでリリースします。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - Knowledge Transfer-Driven Few-Shot Class-Incremental Learning [23.163459923345556]
FSCIL(Few-shot class-incremental Learning)は、古いクラスを忘れずに、いくつかのサンプルを使用して新しいクラスを継続的に学習することを目的としている。
既存のFSCIL手法の進歩にもかかわらず、モデルの可塑性の最適化が不十分なため、提案手法は準最適である。
本稿では,多種多様な擬似的漸進的タスクをエージェントとして頼りにし,知識伝達を実現するランダムエピソードサンプリング・拡張(RESA)戦略を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:02:45Z) - Learning to Learn Better for Video Object Segmentation [94.5753973590207]
本稿では,SVOS の学習目標機能 (LLB) を強調する新しいフレームワークを提案する。
識別ラベル生成モジュール(DLGM)と適応融合モジュールを設計し,これらの課題に対処する。
提案手法は最先端性能を実現する。
論文 参考訳(メタデータ) (2022-12-05T09:10:34Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Adaptive Consistency Regularization for Semi-Supervised Transfer
Learning [31.66745229673066]
我々は,半教師付き学習と移動学習を共同で検討し,より実践的で競争的なパラダイムへと導いた。
事前学習した重みとラベルなしの目標サンプルの両方の価値をよりよく活用するために、適応整合正則化を導入する。
提案手法は,Pseudo Label,Mean Teacher,MixMatchといった,最先端の半教師付き学習技術より優れた適応整合性正規化を実現する。
論文 参考訳(メタデータ) (2021-03-03T05:46:39Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。