論文の概要: Pedestrian Attribute Recognition via Hierarchical Cross-Modality HyperGraph Learning
- arxiv url: http://arxiv.org/abs/2509.22331v1
- Date: Fri, 26 Sep 2025 13:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.453949
- Title: Pedestrian Attribute Recognition via Hierarchical Cross-Modality HyperGraph Learning
- Title(参考訳): 階層的クロスモーダルハイパーグラフ学習による歩行者属性認識
- Authors: Xiao Wang, Shujuan Wu, Xiaoxia Cheng, Changwei Bi, Jin Tang, Bin Luo,
- Abstract要約: 本稿では,標準歩行者属性認識フレームワークを強化するための知識グラフ誘導型クロスモーダルハイパーグラフ学習フレームワークを提案する。
複数のPARベンチマークデータセットの実験は、提案した知識グラフの有効性を徹底的に実証した。
- 参考スコア(独自算出の注目度): 18.529033560699833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Pedestrian Attribute Recognition (PAR) algorithms typically focus on mapping visual features to semantic labels or attempt to enhance learning by fusing visual and attribute information. However, these methods fail to fully exploit attribute knowledge and contextual information for more accurate recognition. Although recent works have started to consider using attribute text as additional input to enhance the association between visual and semantic information, these methods are still in their infancy. To address the above challenges, this paper proposes the construction of a multi-modal knowledge graph, which is utilized to mine the relationships between local visual features and text, as well as the relationships between attributes and extensive visual context samples. Specifically, we propose an effective multi-modal knowledge graph construction method that fully considers the relationships among attributes and the relationships between attributes and vision tokens. To effectively model these relationships, this paper introduces a knowledge graph-guided cross-modal hypergraph learning framework to enhance the standard pedestrian attribute recognition framework. Comprehensive experiments on multiple PAR benchmark datasets have thoroughly demonstrated the effectiveness of our proposed knowledge graph for the PAR task, establishing a strong foundation for knowledge-guided pedestrian attribute recognition. The source code of this paper will be released on https://github.com/Event-AHU/OpenPAR
- Abstract(参考訳): 現在のPedestrian Attribute Recognition (PAR)アルゴリズムは一般的に、視覚的特徴をセマンティックラベルにマッピングすることや、視覚的情報と属性情報を融合して学習を強化することに焦点を当てている。
しかし、これらの手法は属性知識と文脈情報を完全に活用し、より正確な認識に失敗する。
近年,属性テキストを視覚情報と意味情報の関連性を高めるための追加入力として活用する研究が始まっているが,これらの手法はまだ初期段階にある。
そこで本稿では,局所的な視覚的特徴とテキストの関係,および属性と広範囲な視覚的コンテキストの関連性を明らかにするために,マルチモーダルな知識グラフの構築を提案する。
具体的には,属性間の関係と属性と視覚トークンの関係を十分に考慮した,効果的なマルチモーダル知識グラフ構築手法を提案する。
本稿では,これらの関係を効果的にモデル化するために,標準歩行者属性認識フレームワークを強化するための知識グラフ誘導型クロスモーダルハイパーグラフ学習フレームワークを提案する。
複数のPARベンチマークデータセットに関する総合的な実験は、提案したPARタスクに対する知識グラフの有効性を徹底的に実証し、知識誘導型歩行者属性認識の強力な基盤を確立した。
この論文のソースコードはhttps://github.com/Event-AHU/OpenPARで公開される。
関連論文リスト
- LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAG-ReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。
1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。
実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文 参考訳(メタデータ) (2022-08-22T09:45:34Z) - Can I see an Example? Active Learning the Long Tail of Attributes and
Relations [64.50739983632006]
視覚シーンの属性や関係を問う,新たな逐次能動学習フレームワークを提案する。
従来のアクティブな学習手法では、特定の例のラベルを求めるが、エージェントが特定のカテゴリからサンプルを求めることができるように、このフレーミングを反転させる。
このフレーミングを用いて、データ分布の尾からサンプルを求めるアクティブサンプリング手法を導入し、Visual Genomeの古典的アクティブラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-11T19:28:19Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Learning semantic Image attributes using Image recognition and knowledge
graph embeddings [0.3222802562733786]
本稿では,知識グラフ埋め込みモデルと認識された画像の属性を組み合わせることで,画像の意味的属性を学習するための共有学習手法を提案する。
提案されたアプローチは、大量のデータから学習するフレームワークと、新しい知識を推論するために限定的な述語を使用するフレームワークのギャップを埋めるためのステップである。
論文 参考訳(メタデータ) (2020-09-12T15:18:48Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。