論文の概要: When Gender is Hard to See: Multi-Attribute Support for Long-Range Recognition
- arxiv url: http://arxiv.org/abs/2512.06426v1
- Date: Sat, 06 Dec 2025 13:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.354501
- Title: When Gender is Hard to See: Multi-Attribute Support for Long-Range Recognition
- Title(参考訳): ジェンダーが見づらい時--長距離認識のためのマルチ属性サポート
- Authors: Nzakiese Mbongo, Kailash A. Hambarde, Hugo Proença,
- Abstract要約: 本稿では,CLIPを利用した2経路トランスフォーマフレームワークを提案する。
本フレームワークは,(1)事前学習したCLIP画像エンコーダを上層を選択的に微調整することによって洗練する直接視覚経路,(2)CLIPテキストイメージ空間に並んだソフトバイオメトリックなプロンプトから性別を推定する属性媒介経路の2つの相補的ストリームを統合する。
- 参考スコア(独自算出の注目度): 3.653070538244767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate gender recognition from extreme long-range imagery remains a challenging problem due to limited spatial resolution, viewpoint variability, and loss of facial cues. For such purpose, we present a dual-path transformer framework that leverages CLIP to jointly model visual and attribute-driven cues for gender recognition at a distance. The framework integrates two complementary streams: (1) a direct visual path that refines a pre-trained CLIP image encoder through selective fine-tuning of its upper layers, and (2) an attribute-mediated path that infers gender from a set of soft-biometric prompts (e.g., hairstyle, clothing, accessories) aligned in the CLIP text-image space. Spatial channel attention modules further enhance discriminative localization under occlusion and low resolution. To support large-scale evaluation, we construct U-DetAGReID, a unified long-range gender dataset derived from DetReIDx and AG-ReID.v2, harmonized under a consistent ternary labeling scheme (Male, Female, Unknown). Extensive experiments suggest that the proposed solution surpasses state-of-the-art person-attribute and re-identification baselines across multiple metrics (macro-F1, accuracy, AUC), with consistent robustness to distance, angle, and height variations. Qualitative attention visualizations confirm interpretable attribute localization and responsible abstention behavior. Our results show that language-guided dual-path learning offers a principled, extensible foundation for responsible gender recognition in unconstrained long-range scenarios.
- Abstract(参考訳): 極端な長距離画像からの正確な性別認識は、空間分解能の制限、視点の多様性、顔の手がかりの喪失など、依然として困難な問題である。
このような目的のために、CLIPを利用して視覚的および属性駆動的な手がかりを遠隔でモデル化するデュアルパストランスフォーマーフレームワークを提案する。
本フレームワークは,(1)上層層を選択的に微調整することで,事前学習したCLIP画像エンコーダを洗練させる直接視覚経路,(2)CLIPテキストイメージ空間に並んだソフトバイオメトリックなプロンプト(例えば,髪型,衣服,アクセサリー)から性別を推定する属性媒介経路の2つの相補的ストリームを統合する。
空間チャネルアテンションモジュールは、閉塞および低分解能下での識別的局所化をさらに強化する。
大規模評価を支援するため、一貫した三項ラベリング方式(男性、女性、不明)で調和した、DetReIDxとAG-ReID.v2から派生した、統一された長距離性データセットであるU-DetAGReIDを構築した。
大規模な実験により、提案手法は複数の指標(マクロF1、精度、AUC)にわたる最先端の人物属性と再識別ベースラインを超え、距離、角度、高さのばらつきに一貫したロバスト性を有することが示唆された。
質的注意可視化は、解釈可能な属性ローカライゼーションと責任ある禁忌行動を確認する。
本稿の結果から,言語指導型デュアルパス学習は,制約のない長距離シナリオにおいて,性認知に責任を負うための原則的かつ拡張可能な基盤を提供することが示された。
関連論文リスト
- Combo-Gait: Unified Transformer Framework for Multi-Modal Gait Recognition and Attribute Analysis [35.9240903956677]
本研究では,2次元の時間的シルエットと3次元のSMPL特徴を組み合わさって,ロバストな歩行分析を行うフレームワークを提案する。
識別以外にも、歩行認識と人的属性推定を共同で行うマルチタスク学習戦略を導入する。
提案手法は歩行認識における最先端手法より優れ,正確な人的属性推定を提供する。
論文 参考訳(メタデータ) (2025-10-12T02:56:40Z) - TransFIRA: Transfer Learning for Face Image Recognizability Assessment [73.61309363885552]
TransFIRAは軽量でアノテーションのないフレームワークで、埋め込みスペースで直接認識できる。
顔以外の新しい拡張には、エンコーダで座屈した説明可能性があり、これは、劣化と被写体固有の要因が認識可能性にどのように影響するかを示す。
実験では、顔に対する最先端の結果、身体認識に対する強い堅牢性、およびデータセット間のシフトの下で確認された。
論文 参考訳(メタデータ) (2025-10-07T18:16:21Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Distillation-guided Representation Learning for Unconstrained Gait Recognition [50.0533243584942]
本研究では,屋外シナリオにおける人間認証のためのGADER(GAit Detection and Recognition)フレームワークを提案する。
GADERは、歩行情報を含むフレームのみを使用する新しい歩行認識手法により識別的特徴を構築する。
室内および屋外のデータセットに一貫した改善を示すため,複数の歩行ベースライン(SoTA)について評価を行った。
論文 参考訳(メタデータ) (2023-07-27T01:53:57Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Adversarial Multi-scale Feature Learning for Person Re-identification [0.0]
person reidは、2つの画像が同一人物に対応するかどうかを判断するために、人物画像間の視覚的類似度を正確に測定することを目指している。
textbf1)という2つの視点からPerson ReIDシステムの性能向上を提案します。
クロススケール情報伝搬(CSIP)とマルチスケール機能融合(MSFF)から構成されるマルチスケール特徴学習(MSFL)は、異なるスケールで動的に融合する。
マルチスケールグラデーションレギュラライザー(MSGR)は、ID関連要因を強調し、非関連要因を逆転的に無視する。
論文 参考訳(メタデータ) (2020-12-28T02:18:00Z) - Gait Recognition using Multi-Scale Partial Representation Transformation
with Capsules [22.99694601595627]
本稿では,カプセルを用いたマルチスケール部分歩行表現の伝達を学習する,新しいディープネットワークを提案する。
我々のネットワークは、まず最先端のディープ部分特徴抽出器を用いて、マルチスケールな部分表現を得る。
その後、前向きと後向きの部分的特徴間のパターンの相関関係と共起関係を繰り返し学習する。
論文 参考訳(メタデータ) (2020-10-18T19:47:38Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。