論文の概要: CVVNet: A Cross-Vertical-View Network for Gait Recognition
- arxiv url: http://arxiv.org/abs/2505.01837v1
- Date: Sat, 03 May 2025 14:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.291846
- Title: CVVNet: A Cross-Vertical-View Network for Gait Recognition
- Title(参考訳): CVVNet: 歩行認識のための垂直横断型ネットワーク
- Authors: Xiangru Li, Wei Song, Yingda Huang, Wei Meng, Le Chang,
- Abstract要約: 本稿では,頑健な縦方向歩行認識のための周波数アグリゲーションアーキテクチャCVVNetを提案する。
CVVNetは最先端のパフォーマンスを達成し、DroneGaitは8.6%、Gait3Dは2%だった。
- 参考スコア(独自算出の注目度): 3.9124245851778032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition enables contact-free, long-range person identification that is robust to clothing variations and non-cooperative scenarios. While existing methods perform well in controlled indoor environments, they struggle with cross-vertical view scenarios, where surveillance angles vary significantly in elevation. Our experiments show up to 60\% accuracy degradation in low-to-high vertical view settings due to severe deformations and self-occlusions of key anatomical features. Current CNN and self-attention-based methods fail to effectively handle these challenges, due to their reliance on single-scale convolutions or simplistic attention mechanisms that lack effective multi-frequency feature integration. To tackle this challenge, we propose CVVNet (Cross-Vertical-View Network), a frequency aggregation architecture specifically designed for robust cross-vertical-view gait recognition. CVVNet employs a High-Low Frequency Extraction module (HLFE) that adopts parallel multi-scale convolution/max-pooling path and self-attention path as high- and low-frequency mixers for effective multi-frequency feature extraction from input silhouettes. We also introduce the Dynamic Gated Aggregation (DGA) mechanism to adaptively adjust the fusion ratio of high- and low-frequency features. The integration of our core Multi-Scale Attention Gated Aggregation (MSAGA) module, HLFE and DGA enables CVVNet to effectively handle distortions from view changes, significantly improving the recognition robustness across different vertical views. Experimental results show that our CVVNet achieves state-of-the-art performance, with $8.6\%$ improvement on DroneGait and $2\%$ on Gait3D compared with the best existing methods.
- Abstract(参考訳): 歩行認識は、衣服のバリエーションや非協力的なシナリオに対して堅牢な接触のない長距離人物識別を可能にする。
既存の手法は制御された屋内環境では良好に機能するが、監視角が高度において著しく異なる、垂直横断的な視野シナリオに苦しむ。
本実験では, キー解剖学的特徴の高度変形と自己閉塞により, 低-高垂直視環境において, 最大60%の精度低下が認められた。
現在のCNNと自己注意に基づく手法は、単一スケールの畳み込みや、効果的な多周波機能統合に欠ける単純な注意機構に依存しているため、これらの課題に効果的に対応できない。
この課題に対処するために, CVVNet (Cross-Vertical-View Network) を提案する。
CVVNetは、並列マルチスケール畳み込み/最大プールパスと自己アテンションパスを高周波数ミキサーとして採用し、入力シルエットから効率的なマルチ周波数特徴抽出を行うHLFE(High-Low Frequency extract Module)を採用している。
また,高周波数・低周波特性の融合比を適応的に調整する動的Gated Aggregation (DGA) 機構を導入する。
我々の中核であるMulti-Scale Attention Gated Aggregation(MSAGA)モジュール、HLFE、DGAの統合により、CVVNetはビュー変更からの歪みを効果的に処理することができ、異なる垂直ビューにおける認識の堅牢性を大幅に改善する。
実験の結果,私たちのCVVNetは最先端のパフォーマンスを実現しており,DroneGaitは8.6\%,Gait3Dは2.2\%であった。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer [27.921949273217468]
視覚変換器 (ViT) は視覚と視覚の相互作用学習を通して画像分類において顕著な性能を示す。
そこで我々は,視覚変換器用ニューラルセルラーオートマタ (NCA) を提案する。
パラメータの3%未満の増加により、AdaNCAは敵攻撃による精度の10%以上の絶対的な改善に寄与する。
論文 参考訳(メタデータ) (2024-06-12T14:59:12Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。