Fugu-MT 論文翻訳(概要): Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion

論文の概要: Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion

arxiv url: http://arxiv.org/abs/2312.10692v2
Date: Mon, 2 Sep 2024 06:37:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 21:42:39.341806
Title: Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion
Title（参考訳）: CLIPを用いたPrompt Vision-Language Fusionによる歩行者属性認識
Authors: Xiao Wang, Jiandong Jin, Chenglong Li, Jin Tang, Cheng Zhang, Wei Wang,
Abstract要約: 我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
参考スコア（独自算出の注目度）: 23.62010759076202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing pedestrian attribute recognition (PAR) algorithms adopt pre-trained CNN (e.g., ResNet) as their backbone network for visual feature learning, which might obtain sub-optimal results due to the insufficient employment of the relations between pedestrian images and attribute labels. In this paper, we formulate PAR as a vision-language fusion problem and fully exploit the relations between pedestrian images and attribute labels. Specifically, the attribute phrases are first expanded into sentences, and then the pre-trained vision-language model CLIP is adopted as our backbone for feature embedding of visual images and attribute descriptions. The contrastive learning objective connects the vision and language modalities well in the CLIP-based feature space, and the Transformer layers used in CLIP can capture the long-range relations between pixels. Then, a multi-modal Transformer is adopted to fuse the dual features effectively and feed-forward network is used to predict attributes. To optimize our network efficiently, we propose the region-aware prompt tuning technique to adjust very few parameters (i.e., only the prompt vectors and classification heads) and fix both the pre-trained VL model and multi-modal Transformer. Our proposed PAR algorithm only adjusts 0.75% learnable parameters compared with the fine-tuning strategy. It also achieves new state-of-the-art performance on both standard and zero-shot settings for PAR, including RAPv1, RAPv2, WIDER, PA100K, and PETA-ZS, RAP-ZS datasets. The source code and pre-trained models will be released on https://github.com/Event-AHU/OpenPAR.
Abstract（参考訳）: 既存の歩行者属性認識(PAR)アルゴリズムでは、歩行者画像と属性ラベルの関係が不十分なため、視覚特徴学習のバックボーンネットワークとしてCNN(例えばResNet)を採用している。本稿では、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係をフル活用する。具体的には、まず属性句を文に拡張し、次に事前学習された視覚言語モデルCLIPを、視覚画像と属性記述の特徴埋め込みのためのバックボーンとして採用する。対照的な学習目的は、CLIPベースの機能空間において、ビジョンと言語モダリティをうまく結びつけ、CLIPで使用されるトランスフォーマー層は、ピクセル間の長距離関係をキャプチャすることができる。次に、デュアル機能を効果的に融合するためにマルチモーダルトランスを採用し、フィードフォワードネットワークを用いて属性を予測する。ネットワークを効率よく最適化するために、領域認識型プロンプトチューニング手法を提案し、ごく少数のパラメータ(プロンプトベクトルと分類ヘッドのみ)を調整し、事前学習されたVLモデルとマルチモーダルトランスフォーマーの両方を修正する。提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。 RAPv1, RAPv2, WIDER, PA100K, PETA-ZS, RAP-ZSデータセットなど,PARの標準設定とゼロショット設定の両方で、新たな最先端パフォーマンスを実現している。ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/OpenPARでリリースされる。

関連論文リスト

Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。 T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。 MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文参考訳（メタデータ） (2025-06-12T11:09:49Z)
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [16.021683473678515]
視覚・言語モデル(VLM)を用いたセマンティックセグメンテーションのためのトレーニング不要手法を提案する。提案手法はラベル伝搬によるVLMのパッチごとの予測を高速化する。我々の手法はLPOSS+と呼ばれ、ウィンドウベースの処理を回避し、画像全体にわたって推論を行う。
論文参考訳（メタデータ） (2025-03-25T15:47:13Z)
Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文参考訳（メタデータ） (2024-09-15T13:02:14Z)
Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。 SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2024-07-24T03:45:35Z)
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文参考訳（メタデータ） (2024-04-27T14:43:32Z)
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment [4.682326604942316]
我々は,様々な画像分類タスクにおいて高精度な視覚言語基礎モデルであるコントラスト言語-画像事前学習(CLIP)に注目した。リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。 CLIPの視覚的・テキスト的モダリティと異なるRS画像モダリティを一致させる手法を提案する。
論文参考訳（メタデータ） (2024-02-15T09:31:07Z)
RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。 RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-08-18T07:17:09Z)
Learning CLIP Guided Visual-Text Fusion Transformer for Video-based Pedestrian Attribute Recognition [23.748227536306295]
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。ビデオベースPARを視覚言語融合問題として定式化し,事前学習された大規模モデルCLIPを用いて,映像フレームの機能埋め込みを抽出する。
論文参考訳（メタデータ） (2023-04-20T05:18:28Z)
ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。 ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。 ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文参考訳（メタデータ） (2022-06-22T11:55:53Z)
TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文参考訳（メタデータ） (2021-12-16T05:49:51Z)
CLIP Meets Video Captioners: Attribute-Aware Representation Learning Promotes Accurate Captioning [34.46948978082648]
ImageNet Pre-Training (INP) は通常、ビデオコンテンツをエンコードするために使用され、タスク指向ネットワークはスクラッチから微調整され、キャプション生成に対処する。本稿では,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。本稿では,映像コンテンツと属性の対応を学習するために,映像キャプションモデルを必要とする補助タスクであるDual Attribute Predictionを紹介する。
論文参考訳（メタデータ） (2021-11-30T06:37:44Z)
RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文参考訳（メタデータ） (2021-05-05T06:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。