Fugu-MT 論文翻訳(概要): CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval

論文の概要: CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval

arxiv url: http://arxiv.org/abs/2309.09496v1
Date: Mon, 18 Sep 2023 05:38:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 15:02:04.891162
Title: CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval
Title（参考訳）: テキストに基づく人物検索のためのCLIPに基づく相乗的知識伝達
Authors: Yating liu, Yaowei Li, Zimo Liu, Wenming Yang, Yaowei Wang, Qingmin Liao
Abstract要約: 個人検索のためのCLIPベースのSynergistic Knowledge Transfer (CSKT) アプローチを提案する。 CSKTは3つのベンチマークデータセットで最先端のアプローチを上回っている。
参考スコア（独自算出の注目度）: 66.93563107820687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based Person Retrieval aims to retrieve the target person images given a textual query. The primary challenge lies in bridging the substantial gap between vision and language modalities, especially when dealing with limited large-scale datasets. In this paper, we introduce a CLIP-based Synergistic Knowledge Transfer(CSKT) approach for TBPR. Specifically, to explore the CLIP's knowledge on input side, we first propose a Bidirectional Prompts Transferring (BPT) module constructed by text-to-image and image-to-text bidirectional prompts and coupling projections. Secondly, Dual Adapters Transferring (DAT) is designed to transfer knowledge on output side of Multi-Head Self-Attention (MHSA) in vision and language. This synergistic two-way collaborative mechanism promotes the early-stage feature fusion and efficiently exploits the existing knowledge of CLIP. CSKT outperforms the state-of-the-art approaches across three benchmark datasets when the training parameters merely account for 7.4% of the entire model, demonstrating its remarkable efficiency, effectiveness and generalization.
Abstract（参考訳）: テキストベースのPerson Retrievalは、テキストクエリが与えられたターゲットの人物画像を取得することを目的としている。主な課題は、特に限られた大規模データセットを扱う場合、視覚と言語モダリティの実質的なギャップを埋めることである。本稿では, TBPRのためのCLIPベースのSynergistic Knowledge Transfer (CSKT)アプローチを提案する。具体的には、まず、テキストから画像への双方向プロンプトと画像からテキストへの双方向プロンプトと投影の結合によって構築された双方向プロンプト転送(bpt)モジュールを提案する。第二に、デュアルアダプタ転送(DAT)は、視覚と言語におけるマルチヘッド自己認識(MHSA)の出力側で知識を伝達するように設計されている。この相乗的双方向協調機構は、早期特徴融合を促進し、クリップの既存の知識を効率的に活用する。 CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットの最先端アプローチよりも優れており、その顕著な効率、有効性、一般化を示している。

関連論文リスト

AFFAKT: A Hierarchical Optimal Transport based Method for Affective Facial Knowledge Transfer in Video Deception Detection [3.920204205770502]
本稿では,AFFAKTと呼ばれる新しい手法を提案する。この手法は,大規模な表情データセットから有用な知識と相関した知識を伝達することにより,分類性能を向上させる。 2つの偽造検出データセットの実験結果から,提案手法の優れた性能が示された。
論文参考訳（メタデータ） (2024-12-12T05:57:59Z)
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。 CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文参考訳（メタデータ） (2023-10-08T04:00:20Z)
Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文参考訳（メタデータ） (2023-10-02T06:41:30Z)
DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文参考訳（メタデータ） (2023-08-19T15:48:38Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文参考訳（メタデータ） (2022-02-21T17:54:57Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。