論文の概要: Background Matters Too: A Language-Enhanced Adversarial Framework for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2509.03032v1
- Date: Wed, 03 Sep 2025 05:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.425927
- Title: Background Matters Too: A Language-Enhanced Adversarial Framework for Person Re-Identification
- Title(参考訳): 背景も重要なこと: 人物再識別のための言語強化された敵対的フレームワーク
- Authors: Kaicong Huang, Talha Azfar, Jack M. Reilly, Thomas Guggisberg, Ruimin Ke,
- Abstract要約: 背景セマンティクスはReIDのフォアグラウンドセマンティクスと同じくらい重要であると我々は主張する。
本稿では,フォアグラウンドと背景情報を協調的にモデル化するエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.409283414986451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person re-identification faces two core challenges: precisely locating the foreground target while suppressing background noise and extracting fine-grained features from the target region. Numerous visual-only approaches address these issues by partitioning an image and applying attention modules, yet they rely on costly manual annotations and struggle with complex occlusions. Recent multimodal methods, motivated by CLIP, introduce semantic cues to guide visual understanding. However, they focus solely on foreground information, but overlook the potential value of background cues. Inspired by human perception, we argue that background semantics are as important as the foreground semantics in ReID, as humans tend to eliminate background distractions while focusing on target appearance. Therefore, this paper proposes an end-to-end framework that jointly models foreground and background information within a dual-branch cross-modal feature extraction pipeline. To help the network distinguish between the two domains, we propose an intra-semantic alignment and inter-semantic adversarial learning strategy. Specifically, we align visual and textual features that share the same semantics across domains, while simultaneously penalizing similarity between foreground and background features to enhance the network's discriminative power. This strategy drives the model to actively suppress noisy background regions and enhance attention toward identity-relevant foreground cues. Comprehensive experiments on two holistic and two occluded ReID benchmarks demonstrate the effectiveness and generality of the proposed method, with results that match or surpass those of current state-of-the-art approaches.
- Abstract(参考訳): 人物の再識別は、背景雑音を抑えつつ、前景のターゲットを正確に特定し、対象領域からきめ細かい特徴を抽出する、という2つの課題に直面している。
イメージを分割し、注意モジュールを適用することで、多くの視覚のみのアプローチがこれらの問題に対処する。
最近のマルチモーダル手法は、CLIPによって動機付けられ、視覚的理解を導くための意味的手がかりを導入している。
しかし、彼らはフォアグラウンド情報のみに焦点を合わせているが、背景手がかりの潜在的な価値を見落としている。
人間の知覚にインスパイアされた背景意味論はReIDにおける前景意味論と同じくらい重要であり、人間は対象の外観に焦点を絞って背景の注意散らしを取り除く傾向がある。
そこで本稿では,デュアルブランチ・クロスモーダル特徴抽出パイプラインにおいて,前景と背景情報を協調的にモデル化するエンドツーエンドフレームワークを提案する。
ネットワークが2つのドメインを区別するのを助けるために,セマンティック・アライメントとセマンティック・アライメント・イン・セマンティック・アライメント・イン・セマンティック・アライメントを提案する。
具体的には、ドメイン間で同じセマンティクスを共有する視覚的特徴とテキスト的特徴を一致させ、同時に前景と背景の特徴の類似性をペナルティ化し、ネットワークの識別力を高める。
この戦略により、モデルはノイズの多い背景領域を積極的に抑制し、アイデンティティ関連前景への注意を高めることができる。
2つの総合的なReIDベンチマークと2つの隠蔽されたReIDベンチマークに関する総合的な実験は、提案手法の有効性と一般性を示し、その結果は現在の最先端手法と一致するか上回る。
関連論文リスト
- Decouple before Align: Visual Disentanglement Enhances Prompt Tuning [85.91474962071452]
プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。
本稿では,従来見過ごされていた情報非対称性の問題について述べる。
本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:46:00Z) - OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - Attention Disturbance and Dual-Path Constraint Network for Occluded
Person Re-identification [36.86516784815214]
本稿では,アテンションネットワークの一般化を促進するために,トランスフォーマーに基づくアテンション障害とデュアルパス制約ネットワーク(ADP)を提案する。
実世界の障害物を模倣するため,攻撃音を発生させるアテンション外乱マスク(ADM)モジュールを導入する。
我々はまた、全体像から望ましい監視情報を得ることができるデュアルパス制約モジュール(DPC)を開発した。
論文 参考訳(メタデータ) (2023-03-20T09:56:35Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Semantic Reinforced Attention Learning for Visual Place Recognition [15.84086970453363]
大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。
本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。
都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-08-19T02:14:36Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。