論文の概要: ShapeSpeak: Body Shape-Aware Textual Alignment for Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2504.18025v1
- Date: Fri, 25 Apr 2025 02:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.614264
- Title: ShapeSpeak: Body Shape-Aware Textual Alignment for Visible-Infrared Person Re-Identification
- Title(参考訳): ShapeSpeak: Visible-Infrared Person Re-Identificationのための身体形状認識テキストアライメント
- Authors: Shuanglin Yan, Neng Dong, Shuang Li, Rui Yan, Hao Tang, Jing Qin,
- Abstract要約: Visible-Infrared Person Re-identification (VIReID)は、視線と赤外線の歩行者画像とをマッチングすることを目的としている。
既存の方法はアイデンティティラベルの監視のみに依存している。
視覚言語で事前訓練されたモデルがVIReIDに導入され、意味情報モデリングが強化された。
- 参考スコア(独自算出の注目度): 34.82553240281019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-Infrared Person Re-identification (VIReID) aims to match visible and infrared pedestrian images, but the modality differences and the complexity of identity features make it challenging. Existing methods rely solely on identity label supervision, which makes it difficult to fully extract high-level semantic information. Recently, vision-language pre-trained models have been introduced to VIReID, enhancing semantic information modeling by generating textual descriptions. However, such methods do not explicitly model body shape features, which are crucial for cross-modal matching. To address this, we propose an effective Body Shape-aware Textual Alignment (BSaTa) framework that explicitly models and utilizes body shape information to improve VIReID performance. Specifically, we design a Body Shape Textual Alignment (BSTA) module that extracts body shape information using a human parsing model and converts it into structured text representations via CLIP. We also design a Text-Visual Consistency Regularizer (TVCR) to ensure alignment between body shape textual representations and visual body shape features. Furthermore, we introduce a Shape-aware Representation Learning (SRL) mechanism that combines Multi-text Supervision and Distribution Consistency Constraints to guide the visual encoder to learn modality-invariant and discriminative identity features, thus enhancing modality invariance. Experimental results demonstrate that our method achieves superior performance on the SYSU-MM01 and RegDB datasets, validating its effectiveness.
- Abstract(参考訳): Visible-Infrared Person Re-identification (VIReID)は、視覚と赤外線の歩行者画像とをマッチングすることを目的としている。
既存の手法は識別ラベルの監督にのみ依存しており、高いレベルの意味情報を完全に抽出することは困難である。
近年、視覚言語による事前学習モデルがVIReIDに導入され、テキスト記述を生成することで意味情報モデリングが強化されている。
しかし、このような手法は、クロスモーダルマッチングに欠かせない身体形状の特徴を明示的にモデル化するものではない。
そこで本研究では,BSaTa フレームワークを提案する。BSaTa は,身体形状情報を明示的にモデル化し,VIReID の性能向上に活用する。
具体的には,BSTA(Body Shape Textual Alignment)モジュールを設計し,人体形状情報を解析モデルを用いて抽出し,CLIPを介して構造化されたテキスト表現に変換する。
また、体型テキスト表現と体型特徴との整合性を確保するために、テクスチャ-ビジュアル一貫性規則化器(TVCR)を設計する。
さらに、多文スーパービジョンと分散一貫性制約を組み合わせた形状認識表現学習(SRL)機構を導入し、視覚エンコーダを誘導し、モダリティ不変性と識別的同一性の特徴を学習し、モダリティ不変性を高める。
実験結果から,SYSU-MM01とRegDBデータセットの精度が向上し,その有効性が検証された。
関連論文リスト
- Diverse Semantics-Guided Feature Alignment and Decoupling for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-Infrared Person Re-Identification (VI-ReID) は、可視像と赤外線像の相違が大きいため、課題である。
本稿では,異なるモーダルからの識別関連特徴をテキスト埋め込み空間に整列させるために,DSFAD(Diverse Semantics-Guided Feature Alignment and Decoupling)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T15:55:38Z) - See What You Seek: Semantic Contextual Integration for Cloth-Changing Person Re-Identification [16.845045499676793]
衣服交換者再識別(CC-ReID)は、衣服の変化にもかかわらず、複数の監視カメラで個人をマッチングすることを目的としている。
既存の方法は通常、衣服の変化の影響を緩和したり、ID関連機能を強化することに重点を置いている。
本稿では,CC-ReIDのための新しいプロンプト学習フレームワークSemantic Contextual Integration(SCI)を提案する。
論文 参考訳(メタデータ) (2024-12-02T10:11:16Z) - SHAPE-IT: Exploring Text-to-Shape-Display for Generative Shape-Changing Behaviors with LLMs [12.235304780960142]
本稿では,自然言語コマンドによるピン型形状変化を動的に生成する新しい手法であるテキスト・トゥ・シェイプ・ディスプレイを提案する。
大規模言語モデル(LLM)とAIチェーンを利用することで、ユーザはプログラミングなしでテキストプロンプトを通じて、要求に応じて形状を変える動作を記述できる。
論文 参考訳(メタデータ) (2024-09-10T04:18:49Z) - CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文 参考訳(メタデータ) (2024-01-11T10:20:13Z) - Shape-centered Representation Learning for Visible-Infrared Person
Re-identification [53.56628297970931]
現在の可視赤外人物再識別法(VI-ReID)は外観特徴の抽出を優先する。
本研究では,形状に関連付けられた形状特徴と外観特徴に着目した形状中心表現学習フレームワーク(ScRL)を提案する。
形状に関連のある外観特徴を取得するために,形状特徴によって誘導される識別非関連特徴を抑えつつ,識別関連特徴をアクセントする外観特徴強調(AFE)を設計する。
論文 参考訳(メタデータ) (2023-10-27T07:57:24Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Shape-Erased Feature Learning for Visible-Infrared Person
Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。
本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。
SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-09T10:22:10Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - SimAN: Exploring Self-Supervised Representation Learning of Scene Text
via Similarity-Aware Normalization [66.35116147275568]
自己指導型表現学習は、現場テキスト認識コミュニティからかなりの注目を集めている。
表現学習スキームを生成的手法で定式化することで,この問題に対処する。
そこで我々は,異なるパターンを識別し,対応するスタイルを誘導パッチから整列するSimANモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-20T08:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。