論文の概要: Scene-Adaptive Person Search via Bilateral Modulations
- arxiv url: http://arxiv.org/abs/2405.02834v1
- Date: Sun, 5 May 2024 07:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:10:30.072014
- Title: Scene-Adaptive Person Search via Bilateral Modulations
- Title(参考訳): バイラテラル変調によるシーン適応型人物探索
- Authors: Yimin Jiang, Huibing Wang, Jinjia Peng, Xianping Fu, Yang Wang,
- Abstract要約: 本稿では、シーンノイズを同時に排除し、一貫した人物表現を維持するために、二元変調を導入することで、シーン適応型人物探索(SEAS)モデルを提案する。
SEASは2つのベンチマークデータセット(CUHK-SYSUは97.1% mAP、PRWは60.5% mAP)で最先端(SOTA)のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 17.35278461355974
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Person search aims to localize specific a target person from a gallery set of images with various scenes. As the scene of moving pedestrian changes, the captured person image inevitably bring in lots of background noise and foreground noise on the person feature, which are completely unrelated to the person identity, leading to severe performance degeneration. To address this issue, we present a Scene-Adaptive Person Search (SEAS) model by introducing bilateral modulations to simultaneously eliminate scene noise and maintain a consistent person representation to adapt to various scenes. In SEAS, a Background Modulation Network (BMN) is designed to encode the feature extracted from the detected bounding box into a multi-granularity embedding, which reduces the input of background noise from multiple levels with norm-aware. Additionally, to mitigate the effect of foreground noise on the person feature, SEAS introduces a Foreground Modulation Network (FMN) to compute the clutter reduction offset for the person embedding based on the feature map of the scene image. By bilateral modulations on both background and foreground within an end-to-end manner, SEAS obtains consistent feature representations without scene noise. SEAS can achieve state-of-the-art (SOTA) performance on two benchmark datasets, CUHK-SYSU with 97.1\% mAP and PRW with 60.5\% mAP. The code is available at https://github.com/whbdmu/SEAS.
- Abstract(参考訳): 人物探索は、特定の対象人物を、様々な場面のギャラリー画像からローカライズすることを目的としている。
歩行者の移動シーンが変化するにつれて、捕獲された人物画像は、人物の身元とは全く無関係な人物の特徴に、必然的に多くの背景ノイズや前景ノイズをもたらし、激しいパフォーマンス劣化をもたらす。
この問題に対処するために,シーンノイズを同時に除去し,さまざまなシーンに適応するための一貫した人物表現を維持するために,双方向変調を導入することで,シーン適応型人物探索(SEAS)モデルを提案する。
SEASにおいて、バックグラウンド変調ネットワーク(BMN)は、検出された境界ボックスから抽出された特徴を多粒度埋め込みに符号化するように設計されており、ノルム認識による複数のレベルからのバックグラウンドノイズの入力を低減する。
また、人物特徴に対する前景雑音の影響を軽減するため、シーン画像の特徴マップに基づいて埋め込まれた人物のクラッタ低減オフセットを計算するために、前景変調ネットワーク(FMN)を導入している。
背景と前景の両側変調をエンドツーエンドで行うことで、SEASはシーンノイズのない一貫した特徴表現を得る。
SEASは2つのベンチマークデータセット(CUHK-SYSUは97.1\% mAP、PRWは60.5\% mAP)で最先端(SOTA)のパフォーマンスを達成できる。
コードはhttps://github.com/whbdmu/SEASで公開されている。
関連論文リスト
- Real-time Controllable Denoising for Image and Video [44.68523669975698]
コントロール可能なイメージデノゲーションは、人間の先行したクリーンなサンプルを生成し、シャープさと滑らかさのバランスをとることを目的としている。
本稿では,最初のディープ・イメージ・ビデオ・デノナイズ・パイプラインであるReal-time Controllable Denoising (RCD)を紹介する。
RCDは、任意のdenoisingレベルをリアルタイムに編集するための、完全に制御可能なユーザインターフェースを提供する。
論文 参考訳(メタデータ) (2023-03-29T03:10:28Z) - DINF: Dynamic Instance Noise Filter for Occluded Pedestrian Detection [0.0]
RCNNベースの歩行者検出器は、矩形領域を使用してインスタンスの特徴を抽出する。
重なり合うオブジェクトの数とわずかに重なり合うオブジェクトの数は不均衡である。
RCNNをベースとした歩行者検知器の信号雑音比を改善するために, 繰り返し動的インスタンスノイズフィルタ (DINF) を提案する。
論文 参考訳(メタデータ) (2023-01-13T14:12:36Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z) - Neighbor2Neighbor: Self-Supervised Denoising from Single Noisy Images [98.82804259905478]
Neighbor2Neighborを提示し、ノイズの多い画像のみで効果的な画像消音モデルをトレーニングします。
ネットワークのトレーニングに使用される入力とターゲットは、同じノイズ画像からサブサンプリングされた画像である。
デノイジングネットワークは、第1段階で生成されたサブサンプルトレーニングペアで訓練され、提案された正規化器は、より良いパフォーマンスのための追加の損失として訓練される。
論文 参考訳(メタデータ) (2021-01-08T02:03:25Z) - Flexible Image Denoising with Multi-layer Conditional Feature Modulation [56.018132592622706]
条件付き特徴変調(CFM)モジュールを備えたU-Netバックボーンを備えることにより,新しいフレキシブル画像符号化ネットワーク(CFMNet)を提案する。
CFMNetは、第1層のみのチャネルワイドシフトと比較して、複数のCFM層を配置することでノイズレベル情報をよりよく利用することができる。
我々のCFMNetは、フレキシブルな非盲検のためのノイズレベル情報を利用するのに有効であり、定量的メトリクスと視覚的品質の両方の観点から、既存の深部画像復調法に対して好適に機能する。
論文 参考訳(メタデータ) (2020-06-24T06:00:00Z) - Noise2Inpaint: Learning Referenceless Denoising by Inpainting Unrolling [2.578242050187029]
本稿では,ノイズ2Inpaint (N2I) をトレーニング手法として導入し,デノナイジング問題を正規化した画像インパインティングフレームワークに再キャストする。
N2Iは、実世界のデータセットのデノベーションを成功させると同時に、純粋にデータ駆動型であるNoss2Selfと比較して詳細を保存できる。
論文 参考訳(メタデータ) (2020-06-16T18:46:42Z) - Variational Denoising Network: Toward Blind Noise Modeling and Removal [59.36166491196973]
ブラインド画像のデノイングはコンピュータビジョンにおいて重要な問題であるが、非常に難しい問題である。
本稿では,ノイズ推定と画像デノーミングを併用した新しい変分推論手法を提案する。
論文 参考訳(メタデータ) (2019-08-29T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。