論文の概要: CLIP-Driven Fine-grained Text-Image Person Re-identification
- arxiv url: http://arxiv.org/abs/2210.10276v1
- Date: Wed, 19 Oct 2022 03:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:37:58.764526
- Title: CLIP-Driven Fine-grained Text-Image Person Re-identification
- Title(参考訳): CLIP駆動型微粒テキスト画像人物再識別
- Authors: Shuanglin Yan, Neng Dong, Liyan Zhang, Jinhui Tang
- Abstract要約: TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
- 参考スコア(独自算出の注目度): 50.94827165464813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: TIReID aims to retrieve the image corresponding to the given text query from
a pool of candidate images. Existing methods employ prior knowledge from
single-modality pre-training to facilitate learning, but lack multi-modal
correspondences. Besides, due to the substantial gap between modalities,
existing methods embed the original modal features into the same latent space
for cross-modal alignment. However, feature embedding may lead to intra-modal
information distortion. Recently, CLIP has attracted extensive attention from
researchers due to its powerful semantic concept learning capacity and rich
multi-modal knowledge, which can help us solve the above problems. Accordingly,
in the paper, we propose a CLIP-driven Fine-grained information excavation
framework (CFine) to fully utilize the powerful knowledge of CLIP for TIReID.
To transfer the multi-modal knowledge effectively, we perform fine-grained
information excavation to mine intra-modal discriminative clues and inter-modal
correspondences. Specifically, we first design a multi-grained global feature
learning module to fully mine intra-modal discriminative local information,
which can emphasize identity-related discriminative clues by enhancing the
interactions between global image (text) and informative local patches (words).
Secondly, cross-grained feature refinement (CFR) and fine-grained
correspondence discovery (FCD) modules are proposed to establish the
cross-grained and fine-grained interactions between modalities, which can
filter out non-modality-shared image patches/words and mine cross-modal
correspondences from coarse to fine. CFR and FCD are removed during inference
to save computational costs. Note that the above process is performed in the
original modality space without further feature embedding. Extensive
experiments on multiple benchmarks demonstrate the superior performance of our
method on TIReID.
- Abstract(参考訳): TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
既存の手法では、学習を容易にするために単一モダリティ事前学習からの事前知識を用いるが、マルチモーダル対応は欠如している。
さらに、モダリティ間の実質的なギャップのため、既存の手法では、元のモダリティ特徴を同じ潜在空間に埋め込んでクロスモーダルアライメントを行う。
しかし、特徴埋め込みはモーダル情報歪みを引き起こす可能性がある。
近年、CLIPは強力なセマンティック概念学習能力と豊富なマルチモーダル知識により、研究者の注目を集めている。
そこで本稿では, TIReIDにおけるCLIPの強力な知識をフル活用するための, CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
マルチモーダル知識を効果的に伝達するために,モーダル内判別手がかりとモーダル間対応をマイニングするために細粒度情報掘削を行う。
具体的には,まず,大域的画像(テキスト)と情報的局所パッチ(単語)との相互作用を強化することにより,識別関連識別手がかりを強調できる,モーダル内識別ローカル情報を完全にマイニングするグローバル特徴学習モジュールを設計する。
第2に、非モダリティ共有画像パッチ/ワードをフィルタリングし、クロスモダリティ対応を粗いものから細かいものへとマイニングできる、モダリティ間の粒度と粒度の相互作用を確立するために、クロスグラニュラル特徴改善(CFR)とFCDモジュールを提案する。
cfrとfcdは計算コストを節約するために推論中に取り除かれる。
上記の過程は、さらなる特徴埋め込みなしに元のモジュラリティ空間で実行されることに注意。
複数のベンチマークでの大規模な実験は、TIReID上での手法の優れた性能を示す。
関連論文リスト
- Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。
各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。
音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-28T15:38:58Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning [15.544134849816528]
簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
論文 参考訳(メタデータ) (2023-06-28T07:29:26Z) - Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection [82.94413676131545]
マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
論文 参考訳(メタデータ) (2023-06-28T06:08:20Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - CMTR: Cross-modality Transformer for Visible-infrared Person
Re-identification [38.96033760300123]
可視赤外人物再識別のための相互モダリティトランスフォーマー法(CMTR)
我々は,モダリティの情報をエンコードするために,トークン埋め込みと融合した新しいモダリティ埋め込みを設計する。
提案するCMTRモデルの性能は,既存のCNN方式をはるかに上回っている。
論文 参考訳(メタデータ) (2021-10-18T03:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。