論文の概要: Exploring Part-Informed Visual-Language Learning for Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2308.02738v1
- Date: Fri, 4 Aug 2023 23:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:57:15.953246
- Title: Exploring Part-Informed Visual-Language Learning for Person
Re-Identification
- Title(参考訳): パーソナライズのためのパーソナライズド視覚言語学習の検討
- Authors: Yin Lin, Cong Liu, Yehansen Chen, Jinshui Hu, Bing Yin, Baocai Yin,
Zengfu Wang
- Abstract要約: 本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
- 参考スコア(独自算出の注目度): 40.725052076983516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, visual-language learning has shown great potential in enhancing
visual-based person re-identification (ReID). Existing visual-language
learning-based ReID methods often focus on whole-body scale image-text feature
alignment, while neglecting supervisions on fine-grained part features. This
choice simplifies the learning process but cannot guarantee within-part feature
semantic consistency thus hindering the final performance. Therefore, we
propose to enhance fine-grained visual features with part-informed language
supervision for ReID tasks. The proposed method, named Part-Informed
Visual-language Learning ($\pi$-VL), suggests that (i) a human parsing-guided
prompt tuning strategy and (ii) a hierarchical fusion-based visual-language
alignment paradigm play essential roles in ensuring within-part feature
semantic consistency. Specifically, we combine both identity labels and parsing
maps to constitute pixel-level text prompts and fuse multi-stage visual
features with a light-weight auxiliary head to perform fine-grained image-text
alignment. As a plug-and-play and inference-free solution, our $\pi$-VL
achieves substantial improvements over previous state-of-the-arts on four
common-used ReID benchmarks, especially reporting 90.3% Rank-1 and 76.5% mAP
for the most challenging MSMT17 database without bells and whistles.
- Abstract(参考訳): 近年、視覚言語学習は、視覚に基づく人物再識別(ReID)を強化する大きな可能性を示している。
既存の視覚言語学習に基づくreid法は、細かな部分的特徴の監督を怠りながら、全身的な画像-テキスト特徴のアライメントにフォーカスすることが多い。
この選択は学習プロセスを単純化するが、内部機能のセマンティック一貫性を保証できないため、最終的なパフォーマンスを損なう。
そこで本稿では,ReIDタスクのための部分インフォームド言語監視による視覚的特徴の微細化を提案する。
提案手法は,Part-Informed Visual-Learning (\pi$-VL) と名付けられている。
(i)人間のパースガイドによる即興チューニング戦略と
(ii) 階層的融合に基づく視覚言語アライメントパラダイムは、部分内特徴の一貫性を確保する上で不可欠な役割を担っている。
具体的には、識別ラベルと解析マップの両方を組み合わせて画素レベルのテキストプロンプトを構成し、多段階視覚特徴と軽量補助ヘッドを融合させ、きめ細かい画像テキストアライメントを行う。
我々の$\pi$-VLは、プラグアンドプレイと推論なしのソリューションとして、4つの一般的なReIDベンチマーク、特に最も難易度の高いMSMT17データベースに対して90.3% Rank-1と76.5% mAPを報告した4つの最先端のReIDベンチマークよりも大幅に改善されている。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Language-Inspired Relation Transfer for Few-shot Class-Incremental Learning [42.923762020491495]
視覚的な手掛かりとテキストの描写でオブジェクトを理解するために,LRT(Language-inspired Relation Transfer)パラダイムを提案する。
提案したLRTは,Mini-ImageNetおよびCIFAR-100 FSCILベンチマークの最終セッションにおいて,最先端モデルよりも13%以上,7%以上性能が向上する。
論文 参考訳(メタデータ) (2025-01-10T10:59:27Z) - Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。
基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。
Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-12-30T01:38:14Z) - CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。