論文の概要: VLM-PAR: A Vision Language Model for Pedestrian Attribute Recognition
- arxiv url: http://arxiv.org/abs/2512.22217v1
- Date: Mon, 22 Dec 2025 11:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.898711
- Title: VLM-PAR: A Vision Language Model for Pedestrian Attribute Recognition
- Title(参考訳): VLM-PAR:歩行者属性認識のための視覚言語モデル
- Authors: Abdellah Zakaria Sellam, Salah Eddine Bekhouche, Fadi Dornaika, Cosimo Distante, Abdenour Hadid,
- Abstract要約: 我々は,凍結したSigLIP 2多言語エンコーダ上に構築されたモジュール型視覚言語フレームワークであるVLM-PARを紹介する。
VLM-PARは、高度に不均衡なPA100Kベンチマークで大幅な精度向上を実現し、新しい最先端性能を実現している。
これらの結果は、歩行者属性認識における不均衡と一般化の課題を克服するために、大規模視覚言語事前訓練とモダナル改良の統合の有効性を裏付けるものである。
- 参考スコア(独自算出の注目度): 14.461466154247544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pedestrian Attribute Recognition (PAR) involves predicting fine-grained attributes such as clothing color, gender, and accessories from pedestrian imagery, yet is hindered by severe class imbalance, intricate attribute co-dependencies, and domain shifts. We introduce VLM-PAR, a modular vision-language framework built on frozen SigLIP 2 multilingual encoders. By first aligning image and prompt embeddings via refining visual features through a compact cross-attention fusion, VLM-PAR achieves significant accuracy improvement on the highly imbalanced PA100K benchmark, setting a new state-of-the-art performance, while also delivering significant gains in mean accuracy across PETA and Market-1501 benchmarks. These results underscore the efficacy of integrating large-scale vision-language pretraining with targeted cross-modal refinement to overcome imbalance and generalization challenges in PAR.
- Abstract(参考訳): 歩行者属性認識(Pedestrian Attribute Recognition, PAR)は、歩行者画像から衣服の色、性別、アクセサリーなどのきめ細かい属性を予測するが、重度の階級不均衡、複雑な属性共依存性、ドメインシフトによって妨げられる。
我々は,凍結したSigLIP 2多言語エンコーダ上に構築されたモジュール型視覚言語フレームワークであるVLM-PARを紹介する。
VLM-PARは、画像のアライメントと画像の埋め込みを、コンパクトなクロスアテンション融合によって行うことで、高度に不均衡なPA100Kベンチマークで大幅な精度向上を実現し、新しい最先端のパフォーマンスを設定し、PETAとMarket-1501ベンチマークで平均精度を大きく向上させた。
これらの結果は、PARにおける不均衡と一般化の課題を克服するために、大規模視覚言語事前訓練と目標モダル改良の統合の有効性を裏付けるものである。
関連論文リスト
- Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding [31.57375084036447]
視覚言語モデル(VLM)は近年,視覚知覚と言語推論の橋渡しにおいて大きな進歩を遂げている。
マルチステップ認識機能を持つVLMを段階的に支援する自己進化型フレームワークであるLASERを提案する。
提案手法はモンテカルロの品質評価とインターセクション・オーバー・ユニオン(IoU)に基づく地域品質評価を統合し,高品質な嗜好データ構築における精度と多様性を両立させる。
論文 参考訳(メタデータ) (2025-09-04T14:17:01Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - Black Sheep in the Herd: Playing with Spuriously Correlated Attributes for Vision-Language Recognition [8.950906917573986]
VLM(Vision-Language Models)は、分布内精度と分布外一般化のバランスをとるジレンマを示す。
近年の研究では、視覚属性などの低レベル概念を活用して一般化を高めている。
この研究は、VLMが、カテゴリと同一であるが本質的にはその一部ではないが、突発的に相関する属性である意思決定に、小さな属性のサブセットを過度に依存していることを明らかにする。
論文 参考訳(メタデータ) (2025-02-19T12:05:33Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。