論文の概要: QA-ReID: Quality-Aware Query-Adaptive Convolution Leveraging Fused Global and Structural Cues for Clothes-Changing ReID
- arxiv url: http://arxiv.org/abs/2601.19133v1
- Date: Tue, 27 Jan 2026 03:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.147882
- Title: QA-ReID: Quality-Aware Query-Adaptive Convolution Leveraging Fused Global and Structural Cues for Clothes-Changing ReID
- Title(参考訳): QA-ReID: クオリティを意識したクエリ適応型コンボリューション
- Authors: Yuxiang Wang, Kunming Jiang, Tianxiang Zhang, Ke Tian, Gaozhe Jiang,
- Abstract要約: 着替え型ReID (CC-ReID) は, 着替えによる外観変化が著しいため, 深刻な課題を呈する。
グローバルな外観と衣料品の不変構造の両方をモデル化する品質意識型デュアルブランチマッチング(QA-ReID)を提案する。
QA-ReIDは、PRCC、LTCC、VC-Clothesなど、複数のベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 19.102495917561946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike conventional person re-identification (ReID), clothes-changing ReID (CC-ReID) presents severe challenges due to substantial appearance variations introduced by clothing changes. In this work, we propose the Quality-Aware Dual-Branch Matching (QA-ReID), which jointly leverages RGB-based features and parsing-based representations to model both global appearance and clothing-invariant structural cues. These heterogeneous features are adaptively fused through a multi-modal attention module. At the matching stage, we further design the Quality-Aware Query Adaptive Convolution (QAConv-QA), which incorporates pixel-level importance weighting and bidirectional consistency constraints to enhance robustness against clothing variations. Extensive experiments demonstrate that QA-ReID achieves state-of-the-art performance on multiple benchmarks, including PRCC, LTCC, and VC-Clothes, and significantly outperforms existing approaches under cross-clothing scenarios.
- Abstract(参考訳): 従来型再識別(ReID)とは異なり、着替え型ReID(CC-ReID)は、着替えによって引き起こされる外観の変化により深刻な課題を呈する。
本研究では,RGBに基づく特徴と解析に基づく表現を併用したQA-ReID(Quality-Aware Dual-Branch Matching)を提案する。
これらの異種機能はマルチモーダルアテンションモジュールを介して適応的に融合される。
マッチング段階において、我々はさらにQAConv-QA(Quality-Aware Query Adaptive Convolution)を設計する。
広範な実験により、QA-ReIDはPRCC、LTCC、VC-Clothesを含む複数のベンチマークで最先端のパフォーマンスを達成し、クロスクロースシナリオにおける既存のアプローチよりも大幅に優れていることが示されている。
関連論文リスト
- Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching [1.9270911143386336]
被写体駆動画像生成は、様々な文脈において、特定の被写体の新たな描写を合成することを目的としている。
潜在連結戦略を用いたLoRA微調整拡散モデルを提案する。
フィルタリングと品質評価のために, きめ細かい評価フレームワークCHARISを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:00:32Z) - Confidence-guided Refinement Reasoning for Zero-shot Question Answering [19.796455166690187]
C2R(Confidence-guided Refinement Reasoning)は、テキスト、画像、ビデオドメインにわたる質問応答タスクに適用可能な、新しいトレーニングフリーフレームワークである。
C2Rは戦略的にサブクエストとそれらの回答(サブQA)を構築し、洗練し、ターゲットの回答に対してより良い信頼スコアを得る。
論文 参考訳(メタデータ) (2025-09-25T05:15:12Z) - Contextualized Multimodal Lifelong Person Re-Identification in Hybrid Clothing States [2.6399783378460158]
身元再確認(ReID)は、衣料品変更(CCReID)による現実世界の監視システムにいくつかの課題がある
既存の手法では、特定のアプリケーション向けにモデルを開発するか、CCReIDを独自のサブプロブレムとして扱うかのいずれかであった。
LReID-Hybridタスクは,連続的な環境で学習しながら,SCとCCの両方を達成するためのモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-09-14T12:46:39Z) - SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [74.36139886192495]
本稿では,AG-ReID のための SD-ReID という新しい生成フレームワークを提案する。
まず、ViTベースのモデルを用いて人物表現を抽出し、個人性や視認性を含む制御可能な条件を抽出する。
次に、安定拡散(SD)モデルを微調整し、これらの制御可能な条件によって導かれる人物表現を強化する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - VTAMIQ: Transformers for Attention Modulated Image Quality Assessment [0.0]
本稿では,VTAMIQ(VTAMIQ)を用いた新しい全参照IQA手法を提案する。
本手法は既存のIQAデータセット上での競合や最先端の性能を実現する。
VTAMIQは、分類タスクとIQAタスクの両方に対して大規模な事前訓練を行うことで、目に見えない画像と歪みの集合によく一般化する。
論文 参考訳(メタデータ) (2021-10-04T18:35:29Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。