論文の概要: ReSAGE-PAR: Representational Similarity Assessment for Generative Expansion in Pedestrian Attribute Recognition
- arxiv url: http://arxiv.org/abs/2606.06020v1
- Date: Thu, 04 Jun 2026 11:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.654197
- Title: ReSAGE-PAR: Representational Similarity Assessment for Generative Expansion in Pedestrian Attribute Recognition
- Title(参考訳): ReSAGE-PAR: 歩行者属性認識における生成的拡張のための表現的類似性評価
- Authors: Pablo Ayuso-Albizu, Pablo Carballeira, Juan C. SanMiguel, Paula Moral,
- Abstract要約: 本稿では、ReSAGE-PARと呼ばれるロバストな生成スコア・オートラベルパイプラインを導入する。
ReSAGE-PARは、高品質な事前訓練データと非標準監視作物のドメインギャップを埋める。
標準のバックボーンでは最大8.7%の大幅な改善が期待できる。
- 参考スコア(独自算出の注目度): 4.663241453114289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the limited diversity and data scarcity in Pedestrian Attribute Recognition (PAR), we explore image synthesis using diffusion models guided by attribute-based prompts. While this enables the controlled generation of pedestrian images, it faces two critical challenges: (i) the domain gap between high-quality pre-training data and low-resolution, non-standard surveillance crops, and (ii) the need for reliable attribute verification to prevent generative hallucinations. In this paper, we introduce a robust generate-score-autolabel pipeline called ReSAGE-PAR (REpresentational Similarity Assessment for Generative Expansion in PAR) that bridges this domain gap and enables scalable, high-fidelity dataset expansion. First, we adapt pre-trained diffusion models to native PAR resolutions using a tailored LoRA-based Image-to-Image approach. Second, we extract vision-language alignment scores between the generated images and their conditioning prompts, utilizing a comprehensive prompting strategy that includes label-consistent and inconsistent complements. Finally, we formulate a Bayesian classifier that converts these continuous scores into reliable binary pseudo-labels. Extensive evaluations demonstrate the effectiveness of ReSAGE-PAR in preserving spatial priors and verifying attributes. When integrated into PAR training, ReSAGE-PAR consistently yields significant improvements-achieving gains of up to 8.7% on standard backbones and pushing state-of-the-art frameworks to new performance levels. This proves its value as an architecture-agnostic solution for scalable PAR enhancement. The complete codebase for ReSAGE-PAR is publicly available at http://www-vpu.eps.uam.es/publications/ReSAGE-PAR.
- Abstract(参考訳): Pedestrian Attribute Recognition (PAR)における限られた多様性とデータ不足に対処するために,属性ベースのプロンプトで導かれる拡散モデルを用いて画像合成について検討する。
これは歩行者画像の制御を可能にするが、2つの重要な課題に直面している。
一 高品質事前訓練データと低解像度非標準監視作物との領域ギャップ
二 生成幻覚を防止するための信頼性のある属性検証の必要性。
本稿では、この領域ギャップを橋渡しし、スケーラブルで高忠実なデータセット拡張を可能にする、ReSAGE-PAR(Representational similarity Assessment for Generative Expansion in PAR)と呼ばれるロバストな生成スコア・オートラベルパイプラインを提案する。
まず,LoRAに基づくイメージ・ツー・イメージ・アプローチを用いて,事前学習した拡散モデルをネイティブPAR分解能に適用する。
第2に、ラベル一貫性と一貫性のない補間を含む包括的プロンプト戦略を利用して、生成した画像とその条件付きプロンプト間の視覚言語アライメントスコアを抽出する。
最後に、これらの連続的なスコアを信頼できる2進擬ラベルに変換するベイズ分類器を定式化する。
空間的事前保存と属性検証におけるReSAGE-PARの有効性を広範囲に評価した。
PARトレーニングに統合されると、ReSAGE-PARは一貫して大幅に改善され、標準のバックボーンで最大8.7%向上し、最先端のフレームワークを新たなパフォーマンスレベルに押し上げる。
これにより、スケーラブルなPAR拡張のためのアーキテクチャに依存しないソリューションとしての価値が証明される。
ReSAGE-PARの完全なコードベースはhttp://www-vpu.eps.uam.es/publications/ReSAGE-PARで公開されている。
関連論文リスト
- Improving Visual Representation Alignment Generation with GRPO [51.071351994330605]
拡散変換器は強い画像合成能力を示したが、弱いアライメントのため、列車には非効率である。
本稿では,REPAの静的アライメント損失を生成的表現ポリシー最適化の目的に置き換える,強化に基づく最適化戦略であるVRPOを提案する。
当社のVRPO駆動トレーニングは拡散トランスフォーマーにシームレスに統合され、無視可能なコストを導入し、SiTとDiTアーキテクチャとの完全な互換性を維持します。
論文 参考訳(メタデータ) (2026-05-30T07:21:40Z) - From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space [78.36537400975298]
グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
条件空間を拡大することで関係探索を強化する新しい手法であるMulti-View GRPOを提案する。
MV-GRPOは最先端手法よりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2026-03-13T04:35:13Z) - UniPAR: A Unified Framework for Pedestrian Attribute Recognition [14.613498516126498]
歩行者属性認識のための統合トランスフォーマーベースのフレームワークUniPARを提案する。
統一されたデータスケジューリング戦略と動的分類ヘッドを組み込むことで、UniPARは単一のモデルで多様なデータセットを同時に処理できる。
MSP60K、DukeMTMC、EventPARなど、広く使われているベンチマークデータセットの実験結果は、UniPARが特別なSOTAメソッドに匹敵するパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2026-03-05T12:34:35Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Beyond the Flat Sequence: Hierarchical and Preference-Aware Generative Recommendations [35.58864660038236]
我々はHPGR(Hierarchical and Preference-aware Generative Recommender)という新しいフレームワークを提案する。
まず、構造化を意識した事前学習段階において、セッションベースのMasked Item Modelingの目的を用いて、階層的にインフォームドされ、セマンティックにリッチなアイテム表現空間を学ぶ。
第二に、プライオリティ対応の微調整ステージは、これらの強力な表現を活用して、Preference-Guided Sparse Attentionメカニズムを実装する。
論文 参考訳(メタデータ) (2026-03-01T08:15:34Z) - Test-Time Conditioning with Representation-Aligned Visual Features [9.262325724962485]
Representation-Aligned Guidance (REPA-G)を導入する。
我々は,事前学習した特徴抽出器から抽出した条件付き表現に対して,デノナイズ処理を行う。
提案手法は, 単一パッチによるきめ細かいテクスチャマッチングから, 広義の意味指導まで, 複数スケールで多目的制御を行う。
論文 参考訳(メタデータ) (2026-02-03T17:15:03Z) - VLM-PAR: A Vision Language Model for Pedestrian Attribute Recognition [14.461466154247544]
我々は,凍結したSigLIP 2多言語エンコーダ上に構築されたモジュール型視覚言語フレームワークであるVLM-PARを紹介する。
VLM-PARは、高度に不均衡なPA100Kベンチマークで大幅な精度向上を実現し、新しい最先端性能を実現している。
これらの結果は、歩行者属性認識における不均衡と一般化の課題を克服するために、大規模視覚言語事前訓練とモダナル改良の統合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-12-22T11:19:04Z) - From Controlled Scenarios to Real-World: Cross-Domain Degradation Pattern Matching for All-in-One Image Restoration [2.997052569698842]
All-in-One Image Restoration (AiOIR) は、統一されたパラメータを持つ単一モデルを用いて、複数の劣化パターンによる画像復元を実現することを目的としている。
UDAIRフレームワークは、ソースドメインからターゲットドメインへの学習知識を活用することにより、AiOIRを効果的に実現するために提案されている。
10のオープンソースデータセットの実験結果は、UDAIRがAiOIRタスクのための新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-28T12:22:00Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。