論文の概要: Image-Text Knowledge Modeling for Unsupervised Multi-Scenario Person Re-Identification
- arxiv url: http://arxiv.org/abs/2601.11243v1
- Date: Fri, 16 Jan 2026 12:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.487218
- Title: Image-Text Knowledge Modeling for Unsupervised Multi-Scenario Person Re-Identification
- Title(参考訳): 教師なしマルチシナリオ人物再同定のための画像テキスト知識モデリング
- Authors: Zhiqi Pang, Lingling Zhao, Yang Liu, Chunyu Wang, Gaurav Sharma,
- Abstract要約: Unsupervised multi-scenario (UMS) person re-identification (ReID)は、さまざまなシナリオでReIDを拡張する新しいタスクである。
視覚言語モデルの表現力を効果的に活用する3段階フレームワークである画像テキスト知識モデリング(ITKM)を紹介する。
- 参考スコア(独自算出の注目度): 23.27053860130735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose unsupervised multi-scenario (UMS) person re-identification (ReID) as a new task that expands ReID across diverse scenarios (cross-resolution, clothing change, etc.) within a single coherent framework. To tackle UMS-ReID, we introduce image-text knowledge modeling (ITKM) -- a three-stage framework that effectively exploits the representational power of vision-language models. We start with a pre-trained CLIP model with an image encoder and a text encoder. In Stage I, we introduce a scenario embedding in the image encoder and fine-tune the encoder to adaptively leverage knowledge from multiple scenarios. In Stage II, we optimize a set of learned text embeddings to associate with pseudo-labels from Stage I and introduce a multi-scenario separation loss to increase the divergence between inter-scenario text representations. In Stage III, we first introduce cluster-level and instance-level heterogeneous matching modules to obtain reliable heterogeneous positive pairs (e.g., a visible image and an infrared image of the same person) within each scenario. Next, we propose a dynamic text representation update strategy to maintain consistency between text and image supervision signals. Experimental results across multiple scenarios demonstrate the superiority and generalizability of ITKM; it not only outperforms existing scenario-specific methods but also enhances overall performance by integrating knowledge from multiple scenarios.
- Abstract(参考訳): 我々は,ReIDを複数のシナリオ(クロスレゾリューション,衣服の変化など)で一貫した枠組みで拡張する新しいタスクとして,unsupervised multi-scenario (UMS) person re-identification (ReID)を提案する。
UMS-ReIDに取り組むために、視覚言語モデルの表現力を効果的に活用する3段階のフレームワークである画像テキスト知識モデリング(ITKM)を導入する。
私たちはまず、イメージエンコーダとテキストエンコーダを備えた事前訓練されたCLIPモデルから始める。
ステージIでは、画像エンコーダに埋め込まれたシナリオを導入し、複数のシナリオからの知識を適応的に活用するエンコーダを微調整する。
ステージIIでは、学習したテキストの埋め込みを最適化し、ステージIの擬似ラベルに関連付け、複数のシナリオ分離損失を導入し、シナリオ間テキスト表現のばらつきを増大させる。
ステージIIIでは,まずクラスタレベルとインスタンスレベルの異種整合モジュールを導入し,各シナリオにおいて信頼性の高い異種正対(例えば,可視像と同一人物の赤外線像)を得る。
次に,テキストと画像監視信号の整合性を維持するための動的テキスト表現更新戦略を提案する。
複数のシナリオにまたがる実験結果は、ITKMの優位性と一般化性を示し、既存のシナリオ固有のメソッドよりも優れているだけでなく、複数のシナリオから知識を統合することで全体的なパフォーマンスを向上させる。
関連論文リスト
- Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation [35.50570174431677]
本稿では,WSI(Whole Slide Images)を利用して複数解像度でヒストロジパッチを抽出する新しいマルチレゾリューションパラダイムを提案する。
複数の解像度での視覚的テキストアライメントと、より効果的なテキスト誘導視覚表現を確立するためのクロスレゾリューションアライメントを導入する。
本モデルは,新しい損失関数に支えられ,特徴表現を豊かにし,識別能力を向上させ,様々な解像度での一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2025-04-26T08:44:04Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。