論文の概要: Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2506.02439v1
- Date: Tue, 03 Jun 2025 04:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.280813
- Title: Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification
- Title(参考訳): ビデオレベル言語駆動型ビデオベース可視赤外人物再同定
- Authors: Shuang Li, Jiaxu Leng, Changjiang Kuang, Mingpi Tan, Xinbo Gao,
- Abstract要約: Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
- 参考スコア(独自算出の注目度): 47.40091830500585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based Visible-Infrared Person Re-Identification (VVI-ReID) aims to match pedestrian sequences across modalities by extracting modality-invariant sequence-level features. As a high-level semantic representation, language provides a consistent description of pedestrian characteristics in both infrared and visible modalities. Leveraging the Contrastive Language-Image Pre-training (CLIP) model to generate video-level language prompts and guide the learning of modality-invariant sequence-level features is theoretically feasible. However, the challenge of generating and utilizing modality-shared video-level language prompts to address modality gaps remains a critical problem. To address this problem, we propose a simple yet powerful framework, video-level language-driven VVI-ReID (VLD), which consists of two core modules: invariant-modality language prompting (IMLP) and spatial-temporal prompting (STP). IMLP employs a joint fine-tuning strategy for the visual encoder and the prompt learner to effectively generate modality-shared text prompts and align them with visual features from different modalities in CLIP's multimodal space, thereby mitigating modality differences. Additionally, STP models spatiotemporal information through two submodules, the spatial-temporal hub (STH) and spatial-temporal aggregation (STA), which further enhance IMLP by incorporating spatiotemporal information into text prompts. The STH aggregates and diffuses spatiotemporal information into the [CLS] token of each frame across the vision transformer (ViT) layers, whereas STA introduces dedicated identity-level loss and specialized multihead attention to ensure that the STH focuses on identity-relevant spatiotemporal feature aggregation. The VLD framework achieves state-of-the-art results on two VVI-ReID benchmarks. The code will be released at https://github.com/Visuang/VLD.
- Abstract(参考訳): Visible-Infrared Person Re-Identification (VVI-ReID) は、モダリティ不変のシーケンスレベルの特徴を抽出することにより、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
高レベルの意味表現として、言語は赤外と可視の両方で歩行者の特徴を一貫した記述を提供する。
Contrastive Language-Image Pre-Training (CLIP) モデルを利用して、ビデオレベルの言語プロンプトを生成し、モダリティ不変のシーケンスレベルの特徴の学習を導くことは理論的に可能である。
しかし、モダリティ共有ビデオレベル言語の生成と活用の課題は、モダリティギャップに対処する上で重要な問題である。
この問題に対処するため,ビデオレベルの言語駆動型VVI-ReID (VLD) は,不変モダリティ言語プロンプト (IMLP) と時空間プロンプト (STP) の2つのコアモジュールから構成される。
IMLPは、視覚エンコーダとプロンプト学習者の共同微調整戦略を用いて、CLIPのマルチモーダル空間における異なるモダリティからの視覚的特徴を効果的に生成し、モダリティ差を緩和する。
さらに、STPは、時空間ハブ(STH)と時空間アグリゲーション(STA)という2つのサブモジュールを通して時空間情報を時空間的にモデル化し、時空間情報をテキストプロンプトに組み込むことでIMLPをさらに強化する。
STHは視覚変換器(ViT)層にまたがる各フレームの[CLS]トークンに時空間情報を集約し拡散する一方、STAは個別のアイデンティティレベルロスと特殊のマルチヘッドアテンションを導入し、STHがアイデンティティ関連時空間特徴アグリゲーションにフォーカスすることを保証する。
VLDフレームワークは、2つのVVI-ReIDベンチマークで最先端の結果を達成する。
コードはhttps://github.com/Visuang/VLD.comで公開される。
関連論文リスト
- STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。