論文の概要: An Empirical Study of CLIP for Text-based Person Search
- arxiv url: http://arxiv.org/abs/2308.10045v2
- Date: Thu, 21 Dec 2023 04:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:33:29.678269
- Title: An Empirical Study of CLIP for Text-based Person Search
- Title(参考訳): テキストによる人物検索のためのCLIPの実証的研究
- Authors: Min Cao, Yang Bai, Ziyin Zeng, Mang Ye, Min Zhang
- Abstract要約: テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。
Contrastive Language Image Pretraining (CLIP)は、多種多様なモダル下流タスクにおいて、多種多様なモダル横断視覚言語事前訓練モデルである。
本稿では,TBPSタスクに対するCLIPの総合的研究を初めて行おうとする。
- 参考スコア(独自算出の注目度): 51.94743973155648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based Person Search (TBPS) aims to retrieve the person images using
natural language descriptions. Recently, Contrastive Language Image Pretraining
(CLIP), a universal large cross-modal vision-language pre-training model, has
remarkably performed over various cross-modal downstream tasks due to its
powerful cross-modal semantic learning capacity. TPBS, as a fine-grained
cross-modal retrieval task, is also facing the rise of research on the
CLIP-based TBPS. In order to explore the potential of the visual-language
pre-training model for downstream TBPS tasks, this paper makes the first
attempt to conduct a comprehensive empirical study of CLIP for TBPS and thus
contribute a straightforward, incremental, yet strong TBPS-CLIP baseline to the
TBPS community. We revisit critical design considerations under CLIP, including
data augmentation and loss function. The model, with the aforementioned designs
and practical training tricks, can attain satisfactory performance without any
sophisticated modules. Also, we conduct the probing experiments of TBPS-CLIP in
model generalization and model compression, demonstrating the effectiveness of
TBPS-CLIP from various aspects. This work is expected to provide empirical
insights and highlight future CLIP-based TBPS research.
- Abstract(参考訳): テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。
近年,クロスモーダルな視覚-言語事前学習モデルであるContrastive Language Image Pretraining (CLIP) が,その強力なクロスモーダルなセマンティック学習能力により,様々な下流タスクにおいて顕著に機能している。
細粒度クロスモーダル検索タスクとしてのTBPSは、CLIPベースのTBPSの研究の高まりに直面している。
本稿では,下流TBPSタスクのための視覚言語事前学習モデルの可能性を探るため,TBPSのためのCLIPの総合的な実証的研究を行い,TBPSコミュニティに直感的かつインクリメンタルで強力なTBPS-CLIPベースラインを提供する。
データ拡張や損失関数など,CLIPにおける重要な設計上の考慮点を再考する。
このモデルは、前述の設計と実践的な訓練のトリックにより、洗練されたモジュールを使わずに満足なパフォーマンスを達成できる。
また,モデル一般化とモデル圧縮におけるTBPS-CLIPの探索実験を行い,様々な側面からTBPS-CLIPの有効性を示す。
この研究は実証的な洞察を与え、将来のCLIPベースのTBPS研究を強調することが期待されている。
関連論文リスト
- RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports [19.915033191502328]
Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
論文 参考訳(メタデータ) (2024-05-23T03:20:51Z) - CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。
我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - CLIP in Medical Imaging: A Comprehensive Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は、最近医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。