論文の概要: TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2312.09627v1
- Date: Fri, 15 Dec 2023 09:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:24:26.507549
- Title: TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification
- Title(参考訳): TF-CLIP:ビデオによる人物再同定のためのテキストフリーCLIP学習
- Authors: Chenyang Yu and Xuehu Liu and Yingquan Wang and Pingping Zhang and
Huchuan Lu
- Abstract要約: ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。
より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。
提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
- 参考スコア(独自算出の注目度): 60.5843635938469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language-image pre-trained models (e.g., CLIP) have shown
superior performances on many cross-modal retrieval tasks. However, the problem
of transferring the knowledge learned from such models to video-based person
re-identification (ReID) has barely been explored. In addition, there is a lack
of decent text descriptions in current ReID benchmarks. To address these
issues, in this work, we propose a novel one-stage text-free CLIP-based
learning framework named TF-CLIP for video-based person ReID. More
specifically, we extract the identity-specific sequence feature as the
CLIP-Memory to replace the text feature. Meanwhile, we design a
Sequence-Specific Prompt (SSP) module to update the CLIP-Memory online. To
capture temporal information, we further propose a Temporal Memory Diffusion
(TMD) module, which consists of two key components: Temporal Memory
Construction (TMC) and Memory Diffusion (MD). Technically, TMC allows the
frame-level memories in a sequence to communicate with each other, and to
extract temporal information based on the relations within the sequence. MD
further diffuses the temporal memories to each token in the original features
to obtain more robust sequence features. Extensive experiments demonstrate that
our proposed method shows much better results than other state-of-the-art
methods on MARS, LS-VID and iLIDS-VID. The code is available at
https://github.com/AsuradaYuci/TF-CLIP.
- Abstract(参考訳): 大規模言語イメージ事前訓練モデル(例えばCLIP)は、多くのクロスモーダル検索タスクにおいて優れた性能を示している。
しかし,そのようなモデルから学んだ知識を映像に基づく人物識別(ReID)に移行する問題は,ほとんど検討されていない。
さらに、現在のreidベンチマークには、まともなテキスト記述が欠けている。
これらの課題に対処するため、ビデオベースのReIDのための一段階のテキストフリーCLIPベースの学習フレームワークTF-CLIPを提案する。
具体的には、テキスト機能を置き換えるために、ID固有のシーケンス機能をCLIPメモリとして抽出する。
一方、CLIPメモリをオンラインで更新するSequence-Specific Prompt (SSP) モジュールを設計する。
さらに,時間的情報を取得するために,時間的メモリ拡散 (TMD) モジュールを提案し,時間的メモリ構成 (TMC) とメモリ拡散 (MD) の2つの重要なコンポーネントからなる。
技術的には、tmcはシーケンス内のフレームレベルのメモリ同士の通信を可能にし、シーケンス内の関係に基づいて時間情報を抽出する。
mdはさらに、元の特徴のそれぞれのトークンに時間記憶を拡散させ、よりロバストなシーケンス特徴を得る。
提案手法はMARS, LS-VID, iLIDS-VIDの他の最先端手法よりも優れた結果を示した。
コードはhttps://github.com/AsuradaYuci/TF-CLIPで入手できる。
関連論文リスト
- ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - SpeechCLIP+: Self-supervised multi-task representation learning for
speech via CLIP and speech-image data [69.20254987896674]
SpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して画像を介して音声とテキストをブリッジする革新的なフレームワークである。
本稿では,SpeechCLIPの2つの拡張を紹介する。まず,CIF(Continuous Integrate-and-Fire)モジュールを用いて,カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。
第2に,SpeechCLIPのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークにマージするハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-10T14:26:42Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip
Retrieval [31.7091206926183]
CLIP(Contrastive Language-Image Pre-training)は、Web収集された画像テキストデータセットから学習する視覚概念の力を示した。
本稿では,CLIPモデルの知識をエンドツーエンドにビデオ言語検索に転送するCLIP4Clipモデルを提案する。
論文 参考訳(メタデータ) (2021-04-18T13:59:50Z) - Temporal Complementary Learning for Video Person Re-Identification [110.43147302200101]
本稿では,連続する映像フレームの相補的特徴を抽出し,映像人物の再同定を行う時間補完学習ネットワークを提案する。
サリエンシ消去操作により、特定の学習者は、前のフレームによって活性化された部分を消去することにより、新規かつ補完的な部分をマイニングする。
テンポラル・サリエンシ・ブースティング(TSB)モジュールは、ビデオフレーム間のサリエント情報を伝播してサリエント機能を強化するように設計されている。
論文 参考訳(メタデータ) (2020-07-18T07:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。