論文の概要: Exploring Part-Informed Visual-Language Learning for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2308.02738v2
- Date: Fri, 21 Mar 2025 10:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:53:44.699258
- Title: Exploring Part-Informed Visual-Language Learning for Person Re-Identification
- Title(参考訳): 人物再同定のための部分インフォーム型視覚言語学習の探索
- Authors: Yin Lin, Yehansen Chen, Baocai Yin, Jinshui Hu, Bing Yin, Cong Liu, Zengfu Wang,
- Abstract要約: 本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 52.92511980835272
- License:
- Abstract: Recently, visual-language learning (VLL) has shown great potential in enhancing visual-based person re-identification (ReID). Existing VLL-based ReID methods typically focus on image-text feature alignment at the whole-body level, while neglecting supervision on fine-grained part features, thus lacking constraints for local feature semantic consistency. To this end, we propose Part-Informed Visual-language Learning ($\pi$-VL) to enhance fine-grained visual features with part-informed language supervisions for ReID tasks. Specifically, $\pi$-VL introduces a human parsing-guided prompt tuning strategy and a hierarchical visual-language alignment paradigm to ensure within-part feature semantic consistency. The former combines both identity labels and human parsing maps to constitute pixel-level text prompts, and the latter fuses multi-scale visual features with a light-weight auxiliary head to perform fine-grained image-text alignment. As a plug-and-play and inference-free solution, our $\pi$-VL achieves performance comparable to or better than state-of-the-art methods on four commonly used ReID benchmarks. Notably, it reports 91.0% Rank-1 and 76.9% mAP on the challenging MSMT17 database, without bells and whistles.
- Abstract(参考訳): 近年、視覚言語学習(VLL)は、視覚に基づく人物再識別(ReID)を強化する大きな可能性を示している。
既存のVLLベースのReIDメソッドでは、ボディレベルでのイメージテキスト機能アライメントに重点を置いているのが一般的である。
そこで本稿では,ReIDタスクのための部分インフォームド言語監視機能を用いて,細粒度視覚的特徴を高めるために,部分インフォームド・ビジュアル言語学習($\pi$-VL)を提案する。
具体的には、$\pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
前者はアイデンティティラベルと人間解析マップの両方を組み合わせてピクセルレベルのテキストプロンプトを構成し、後者は軽量補助ヘッドとマルチスケールの視覚特徴を融合させ、きめ細かい画像テキストアライメントを行う。
我々の$\pi$-VLは、プラグアンドプレイと推論なしのソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
特に、MSMT17データベースでは91.0% Rank-1と76.9% mAPをベルとホイッスルなしで報告している。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Language-Inspired Relation Transfer for Few-shot Class-Incremental Learning [42.923762020491495]
視覚的な手掛かりとテキストの描写でオブジェクトを理解するために,LRT(Language-inspired Relation Transfer)パラダイムを提案する。
提案したLRTは,Mini-ImageNetおよびCIFAR-100 FSCILベンチマークの最終セッションにおいて,最先端モデルよりも13%以上,7%以上性能が向上する。
論文 参考訳(メタデータ) (2025-01-10T10:59:27Z) - Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。
基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。
Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-12-30T01:38:14Z) - CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。