論文の概要: Exploring Part-Informed Visual-Language Learning for Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2308.02738v1
- Date: Fri, 4 Aug 2023 23:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:57:15.953246
- Title: Exploring Part-Informed Visual-Language Learning for Person
Re-Identification
- Title(参考訳): パーソナライズのためのパーソナライズド視覚言語学習の検討
- Authors: Yin Lin, Cong Liu, Yehansen Chen, Jinshui Hu, Bing Yin, Baocai Yin,
Zengfu Wang
- Abstract要約: 本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
- 参考スコア(独自算出の注目度): 40.725052076983516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, visual-language learning has shown great potential in enhancing
visual-based person re-identification (ReID). Existing visual-language
learning-based ReID methods often focus on whole-body scale image-text feature
alignment, while neglecting supervisions on fine-grained part features. This
choice simplifies the learning process but cannot guarantee within-part feature
semantic consistency thus hindering the final performance. Therefore, we
propose to enhance fine-grained visual features with part-informed language
supervision for ReID tasks. The proposed method, named Part-Informed
Visual-language Learning ($\pi$-VL), suggests that (i) a human parsing-guided
prompt tuning strategy and (ii) a hierarchical fusion-based visual-language
alignment paradigm play essential roles in ensuring within-part feature
semantic consistency. Specifically, we combine both identity labels and parsing
maps to constitute pixel-level text prompts and fuse multi-stage visual
features with a light-weight auxiliary head to perform fine-grained image-text
alignment. As a plug-and-play and inference-free solution, our $\pi$-VL
achieves substantial improvements over previous state-of-the-arts on four
common-used ReID benchmarks, especially reporting 90.3% Rank-1 and 76.5% mAP
for the most challenging MSMT17 database without bells and whistles.
- Abstract(参考訳): 近年、視覚言語学習は、視覚に基づく人物再識別(ReID)を強化する大きな可能性を示している。
既存の視覚言語学習に基づくreid法は、細かな部分的特徴の監督を怠りながら、全身的な画像-テキスト特徴のアライメントにフォーカスすることが多い。
この選択は学習プロセスを単純化するが、内部機能のセマンティック一貫性を保証できないため、最終的なパフォーマンスを損なう。
そこで本稿では,ReIDタスクのための部分インフォームド言語監視による視覚的特徴の微細化を提案する。
提案手法は,Part-Informed Visual-Learning (\pi$-VL) と名付けられている。
(i)人間のパースガイドによる即興チューニング戦略と
(ii) 階層的融合に基づく視覚言語アライメントパラダイムは、部分内特徴の一貫性を確保する上で不可欠な役割を担っている。
具体的には、識別ラベルと解析マップの両方を組み合わせて画素レベルのテキストプロンプトを構成し、多段階視覚特徴と軽量補助ヘッドを融合させ、きめ細かい画像テキストアライメントを行う。
我々の$\pi$-VLは、プラグアンドプレイと推論なしのソリューションとして、4つの一般的なReIDベンチマーク、特に最も難易度の高いMSMT17データベースに対して90.3% Rank-1と76.5% mAPを報告した4つの最先端のReIDベンチマークよりも大幅に改善されている。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - PVLR: Prompt-driven Visual-Linguistic Representation Learning for
Multi-Label Image Recognition [47.11517266162346]
本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。
従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
論文 参考訳(メタデータ) (2024-01-31T14:39:11Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。