論文の概要: Vision Transformer for Robust Occluded Person Reidentification in Complex Surveillance Scenes
- arxiv url: http://arxiv.org/abs/2510.27677v1
- Date: Fri, 31 Oct 2025 17:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.193798
- Title: Vision Transformer for Robust Occluded Person Reidentification in Complex Surveillance Scenes
- Title(参考訳): 複雑なサーベイランスシーンにおけるロバストな人物認識のための視覚変換器
- Authors: Bo Li, Duyuan Zheng, Xinyang Liu, Qingwen Li, Hong Li, Hongyan Cui, Ge Gao, Chen Liu,
- Abstract要約: Sh-ViT (Shuffling Vision Transformer) は、隠蔽された人物のReIDのための軽量で堅牢なモデルである。
ViT-Base上に構築されたSh-ViTでは,3つのコンポーネントが導入されている。
第二に、シナリオ適応型拡張(幾何学変換、消去、ぼかし、色調整)は、監視条件をシミュレートする。
第三に、DeiTベースの知識蒸留は限られたラベルで学習を改善する。
- 参考スコア(独自算出の注目度): 23.371137190846625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (ReID) in surveillance is challenged by occlusion, viewpoint distortion, and poor image quality. Most existing methods rely on complex modules or perform well only on clear frontal images. We propose Sh-ViT (Shuffling Vision Transformer), a lightweight and robust model for occluded person ReID. Built on ViT-Base, Sh-ViT introduces three components: First, a Shuffle module in the final Transformer layer to break spatial correlations and enhance robustness to occlusion and blur; Second, scenario-adapted augmentation (geometric transforms, erasing, blur, and color adjustment) to simulate surveillance conditions; Third, DeiT-based knowledge distillation to improve learning with limited labels.To support real-world evaluation, we construct the MyTT dataset, containing over 10,000 pedestrians and 30,000+ images from base station inspections, with frequent equipment occlusion and camera variations. Experiments show that Sh-ViT achieves 83.2% Rank-1 and 80.1% mAP on MyTT, outperforming CNN and ViT baselines, and 94.6% Rank-1 and 87.5% mAP on Market1501, surpassing state-of-the-art methods.In summary, Sh-ViT improves robustness to occlusion and blur without external modules, offering a practical solution for surveillance-based personnel monitoring.
- Abstract(参考訳): 監視における人物再識別(ReID)は、オクルージョン、視点歪み、画像品質の低下によって挑戦される。
既存のほとんどのメソッドは複雑なモジュールに依存している。
本稿では、隠蔽された人物ReIDのための軽量で堅牢なモデルであるSh-ViT(Shuffling Vision Transformer)を提案する。
ViT-Base上に構築されたSh-ViTでは,まず,最終的なトランスフォーマー層内のShuffleモジュールを用いて,空間的相関を破り,オクルージョンとボケに対する堅牢性を高める,次に,監視条件をシミュレートするシナリオ適応型拡張(幾何学変換,消去,ボケ,色調整),および限定ラベルによる学習を改善するためのDeiTベースの知識蒸留(第3,DeiTベースの知識蒸留,実世界の評価を支援するため,基地局検査から10,000人以上の歩行者と30,000以上の画像を含むMyTTデータセットを構築した。
実験の結果、Sh-ViTはMyTT上で83.2%のRan-1と80.1%のmAP、CNNとViTのベースラインを上回っ、Market1501では94.6%のRan-1と87.5%のmAPを達成した。
関連論文リスト
- Sparse BEV Fusion with Self-View Consistency for Multi-View Detection and Tracking [15.680801582969393]
SCFusionは、マルチビュー機能統合を改善するための3つのテクニックを組み合わせたフレームワークである。
SCFusionは最先端のパフォーマンスを達成し、WildTrackで95.9%、MultiviewXで89.2%を記録した。
論文 参考訳(メタデータ) (2025-09-10T09:06:41Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - Evaluating and Enhancing Segmentation Model Robustness with Metamorphic Testing [10.564949684320727]
SegRMTは、遺伝的アルゴリズムを利用して空間変換とスペクトル変換のシーケンスを最適化するテスト手法である。
実験の結果、SegRMTはDeepLabV3のmIoU(Intersection over Union)を6.4%に削減した。
敵の訓練に使用する場合、SegRMTはモデルのパフォーマンスを向上し、mIoUの改善を最大73%向上させる。
論文 参考訳(メタデータ) (2025-04-03T07:15:45Z) - Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification [6.341065683872316]
ViTは、画像の高周波成分を捉えるのに苦労し、局所的なテクスチャやエッジ情報を検出する能力を制限する。
コンテンツ中の関連トークンと非関連トークンのうち、MSA(Multi-head self-attention)を計算する。
ViTsのフィードフォワードネットワークは、画像復元に重要なマルチスケール情報をモデル化することができない。
論文 参考訳(メタデータ) (2024-12-14T10:03:08Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - LaCViT: A Label-aware Contrastive Fine-tuning Framework for Vision
Transformers [18.76039338977432]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの一般的なモデルとして登場し、様々なタスクで最先端のパフォーマンスを実証している。
本稿では,新しいラベル対応コントラストトレーニングフレームワークであるLaCViTを紹介する。
LaCViTは3つの評価されたViTの性能をTop-1精度で最大10.78%向上させる。
論文 参考訳(メタデータ) (2023-03-31T12:38:08Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。