論文の概要: CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels
- arxiv url: http://arxiv.org/abs/2211.13977v2
- Date: Tue, 29 Nov 2022 13:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 12:06:16.220855
- Title: CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels
- Title(参考訳): CLIP-ReID:コンクリートのテキストラベルを使わずに画像再同定のための視覚言語モデルの構築
- Authors: Siyuan Li, Li Sun, Qingli Li
- Abstract要約: 本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
- 参考スコア(独自算出の注目度): 28.42405456691034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models like CLIP have recently shown superior
performances on various downstream tasks, including image classification and
segmentation. However, in fine-grained image re-identification (ReID), the
labels are indexes, lacking concrete text descriptions. Therefore, it remains
to be determined how such models could be applied to these tasks. This paper
first finds out that simply fine-tuning the visual model initialized by the
image encoder in CLIP, has already obtained competitive performances in various
ReID tasks. Then we propose a two-stage strategy to facilitate a better visual
representation. The key idea is to fully exploit the cross-modal description
ability in CLIP through a set of learnable text tokens for each ID and give
them to the text encoder to form ambiguous descriptions. In the first training
stage, image and text encoders from CLIP keep fixed, and only the text tokens
are optimized from scratch by the contrastive loss computed within a batch. In
the second stage, the ID-specific text tokens and their encoder become static,
providing constraints for fine-tuning the image encoder. With the help of the
designed loss in the downstream task, the image encoder is able to represent
data as vectors in the feature embedding accurately. The effectiveness of the
proposed strategy is validated on several datasets for the person or vehicle
ReID tasks. Code is available at https://github.com/Syliz517/CLIP-ReID.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデルは、画像分類やセグメンテーションなど、さまざまな下流タスクで優れたパフォーマンスを示している。
しかし、詳細な画像再識別(ReID)では、ラベルはインデックスであり、具体的なテキスト記述がない。
したがって、これらのタスクにどのようなモデルを適用するかは未定である。
本稿ではまず,クリップ内の画像エンコーダによって初期化される視覚モデルの微調整により,様々なreidタスクにおける競合性能が得られていることを示す。
次に,より良い視覚的表現を促進するための二段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じてCLIPのクロスモーダル記述能力をフル活用し、テキストエンコーダに与え、あいまいな記述を形成することである。
最初のトレーニング段階では、CLIPのイメージエンコーダとテキストエンコーダが固定され、バッチ内で計算された対照的な損失によってテキストトークンだけがゼロから最適化される。
第2段階では、ID固有のテキストトークンとそのエンコーダが静的になり、イメージエンコーダを微調整するための制約を提供する。
下流タスクにおける設計された損失の助けを借りて、イメージエンコーダはデータをベクタとして正確に表現することができる。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
コードはhttps://github.com/Syliz517/CLIP-ReIDで入手できる。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。