論文の概要: ViTA-PAR: Visual and Textual Attribute Alignment with Attribute Prompting for Pedestrian Attribute Recognition
- arxiv url: http://arxiv.org/abs/2506.01411v1
- Date: Mon, 02 Jun 2025 08:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.287939
- Title: ViTA-PAR: Visual and Textual Attribute Alignment with Attribute Prompting for Pedestrian Attribute Recognition
- Title(参考訳): ViTA-PAR:歩行者属性認識のための属性プロンプトを用いた視覚的およびテキスト的属性アライメント
- Authors: Minjeong Park, Hongbeen Park, Jinkyu Kim,
- Abstract要約: 歩行者属性認識(PAR)は、衣服、アクセサリー、性別などの個人の詳細な属性を特定することを目的としている。
ViTA-PARは4つのPARベンチマークで検証され、効率的な推論で競合性能を達成する。
- 参考スコア(独自算出の注目度): 8.982938200941092
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Pedestrian Attribute Recognition (PAR) task aims to identify various detailed attributes of an individual, such as clothing, accessories, and gender. To enhance PAR performance, a model must capture features ranging from coarse-grained global attributes (e.g., for identifying gender) to fine-grained local details (e.g., for recognizing accessories) that may appear in diverse regions. Recent research suggests that body part representation can enhance the model's robustness and accuracy, but these methods are often restricted to attribute classes within fixed horizontal regions, leading to degraded performance when attributes appear in varying or unexpected body locations. In this paper, we propose Visual and Textual Attribute Alignment with Attribute Prompting for Pedestrian Attribute Recognition, dubbed as ViTA-PAR, to enhance attribute recognition through specialized multimodal prompting and vision-language alignment. We introduce visual attribute prompts that capture global-to-local semantics, enabling diverse attribute representations. To enrich textual embeddings, we design a learnable prompt template, termed person and attribute context prompting, to learn person and attributes context. Finally, we align visual and textual attribute features for effective fusion. ViTA-PAR is validated on four PAR benchmarks, achieving competitive performance with efficient inference. We release our code and model at https://github.com/mlnjeongpark/ViTA-PAR.
- Abstract(参考訳): Pedestrian Attribute Recognition (PAR) タスクは、衣服、アクセサリー、性別など、個人のさまざまな詳細な属性を特定することを目的としている。
PAR性能を向上させるために、モデルは、さまざまな領域に現れる可能性のある粗いグローバル属性(例えば、性別を識別する)から、きめ細かいローカル詳細(例えば、アクセサリーを認識する)まで、様々な特徴を捉える必要がある。
近年の研究では、ボディ部分の表現はモデルの堅牢性と精度を高めることができるが、これらの手法は固定水平領域内の属性クラスに制限されることが多く、特性が異なったり予期せぬ場所に現れると性能が低下する。
本稿では,視覚的およびテクスチュアルな属性アライメントとアトリビュート・プロンプトを併用した歩行者属性認識(ViTA-PAR)を提案する。
グローバルからローカルへのセマンティクスをキャプチャし、多様な属性表現を可能にする視覚属性プロンプトを導入する。
テキスト埋め込みを豊かにするために、学習可能なプロンプトテンプレート、いわゆる人物と属性コンテキストのプロンプトを設計し、人と属性コンテキストを学習する。
最後に,視覚的属性とテキスト的属性を効果的に融合させる。
ViTA-PARは4つのPARベンチマークで検証され、効率的な推論で競合性能を達成する。
コードとモデルはhttps://github.com/mlnjeongpark/ViTA-PARで公開しています。
関連論文リスト
- LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。
属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。
我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search [19.610244285078483]
本稿では,テキスト属性と画像間の局所的な表現の対応を学習するためのAIMA(Attribute-Aware Implicit Modality Alignment)フレームワークを提案する。
提案手法は,現在の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-06-06T03:34:42Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Multi-modal Attribute Prompting for Vision-Language Models [40.39559705414497]
VLM(Pre-trained Vision-Language Models)は、タスクをダウンストリームする強力な一般化能力を示すが、少数のシナリオでは苦労する。
既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。
テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。
論文 参考訳(メタデータ) (2024-03-01T01:28:10Z) - TransFA: Transformer-based Representation for Face Attribute Evaluation [87.09529826340304]
我々はtextbfTransFA を用いたtextbfattribute 評価のための新しい textbf Transformer 表現を提案する。
提案するTransFAは,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-12T10:58:06Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z) - ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural
Language [36.319953919737245]
自然言語による人物検索は、与えられたテキスト記述にマッチする大規模な画像プールにおいて、特定の人物を検索することを目的としている。
そこで本稿では,特定の属性句を対応する視覚領域に接地できる属性適応型視点を提案する。
私たちは、堅牢な機能学習によってパフォーマンスが向上するだけでなく、成功も達成しています。
論文 参考訳(メタデータ) (2020-05-15T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。