論文の概要: GLGait: A Global-Local Temporal Receptive Field Network for Gait Recognition in the Wild
- arxiv url: http://arxiv.org/abs/2408.06834v1
- Date: Tue, 13 Aug 2024 11:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:36:36.940687
- Title: GLGait: A Global-Local Temporal Receptive Field Network for Gait Recognition in the Wild
- Title(参考訳): GLGait:野生における歩行認識のためのグローバルローカル時間受容フィールドネットワーク
- Authors: Guozhen Peng, Yunhong Wang, Yuwei Zhao, Shaoxiong Zhang, Annan Li,
- Abstract要約: 本研究では,グローバルローカルな時間的受容場ネットワーク(GLGait)を設計し,野生における歩行認識の問題に対処する。
GLGaitはグローバルローカル・テンポラル・モジュール(GLTM)を使用して、グローバルローカル・テンポラル・テンポラル・レセプティブ・フィールドを確立する。
また、擬大域的時間受容場を真の全体論的時間受容場に集約することもできる。
- 参考スコア(独自算出の注目度): 36.04442506043822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition has attracted increasing attention from academia and industry as a human recognition technology from a distance in non-intrusive ways without requiring cooperation. Although advanced methods have achieved impressive success in lab scenarios, most of them perform poorly in the wild. Recently, some Convolution Neural Networks (ConvNets) based methods have been proposed to address the issue of gait recognition in the wild. However, the temporal receptive field obtained by convolution operations is limited for long gait sequences. If directly replacing convolution blocks with visual transformer blocks, the model may not enhance a local temporal receptive field, which is important for covering a complete gait cycle. To address this issue, we design a Global-Local Temporal Receptive Field Network (GLGait). GLGait employs a Global-Local Temporal Module (GLTM) to establish a global-local temporal receptive field, which mainly consists of a Pseudo Global Temporal Self-Attention (PGTA) and a temporal convolution operation. Specifically, PGTA is used to obtain a pseudo global temporal receptive field with less memory and computation complexity compared with a multi-head self-attention (MHSA). The temporal convolution operation is used to enhance the local temporal receptive field. Besides, it can also aggregate pseudo global temporal receptive field to a true holistic temporal receptive field. Furthermore, we also propose a Center-Augmented Triplet Loss (CTL) in GLGait to reduce the intra-class distance and expand the positive samples in the training stage. Extensive experiments show that our method obtains state-of-the-art results on in-the-wild datasets, $i.e.$, Gait3D and GREW. The code is available at https://github.com/bgdpgz/GLGait.
- Abstract(参考訳): 歩行認識は、協力を必要とせず、非侵襲的な方法での人間の認識技術として、学術や産業から注目を集めている。
先進的な手法は実験室のシナリオでは目覚ましい成功を収めてきたが、そのほとんどは野生では性能が悪くなっている。
近年,いくつかの畳み込みニューラルネットワーク(ConvNets)に基づく手法が提案されている。
しかし、畳み込み操作によって得られる時間受容場は、長い歩数列に対して制限される。
畳み込みブロックをビジュアルトランスフォーマーブロックに置き換える場合、このモデルは、完全な歩行サイクルをカバーするために重要である局所的時間受容場を拡張できない可能性がある。
この問題に対処するため,Global-Local Temporal Receptive Field Network (GLGait) を設計した。
GLGaitはGlobal-Local Temporal Module (GLTM) を用いて、Pseudo Global Temporal Self-Attention (PGTA) と時間的畳み込み操作からなるグローバルローカルな時間的受容場を確立する。
特に、PGTAは、MHSA(Multi-head self-attention)と比較して、メモリと計算の複雑さの少ない擬似的グローバル時間受容場を得るのに使用される。
時間的畳み込み操作は、局所的時間的受容野を高めるために用いられる。
さらに、擬大域的時間受容場を真の全体論的時間受容場に集約することもできる。
さらに,GLGaitにおけるCentral-Augmented Triplet Loss (CTL)を提案し,クラス内距離を削減し,トレーニング段階における正のサンプルを拡大する。
広汎な実験により,本手法は<i>e。$, Gait3D, GREW。
コードはhttps://github.com/bgdpgz/GLGait.comで入手できる。
関連論文リスト
- LogoRA: Local-Global Representation Alignment for Robust Time Series Classification [31.704294005809082]
時系列の教師なしドメイン適応(UDA)は、様々な時間的シナリオで一貫したパターンを特定するモデルを教えることを目的としている。
既存のUDA手法では,時系列データにおけるグローバルな特徴とローカルな特徴を適切に抽出・整合させることが困難である。
マルチスケールの畳み込み分岐とパッチングトランスフォーマー分岐からなる2分岐エンコーダを用いたローカル・グローバル表現アライメントフレームワーク(LogoRA)を提案する。
4つの時系列データセットに対する評価は、LogoRAが最大12.52%の高ベースラインを上回り、時系列UDAタスクにおいてその優位性を示していることを示している。
論文 参考訳(メタデータ) (2024-09-12T13:59:03Z) - Learning Granularity Representation for Temporal Knowledge Graph Completion [2.689675451882683]
時間的知識グラフ(TKG)は、実世界の事実の動的な構造的知識と進化的パターンを反映する時間的情報を含んでいる。
本稿では,TKG 補完のための textbfLearning textbfGranularity textbfRepresentation (termed $mathsfLGRe$) を提案する。
グラニュラリティ・ラーニング(GRL)とアダプティブグラニュラリティ・バランシング(AGB)の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-08-27T08:19:34Z) - LoFormer: Local Frequency Transformer for Image Deblurring [12.032239441930306]
局所周波数変換器(LoFormer)と呼ばれる新しい手法を導入する。
LoFormerの各ユニットに、周波数領域(Freq-LC)にローカルチャネル対応SAを組み込み、低周波および高周波のローカルウィンドウ内の相互共分散を同時にキャプチャする。
実験の結果,126G FLOPsのGoProデータセット上でPSNR34.09dBを達成することにより,LoFormerは画像劣化タスクの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-07-24T04:27:03Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Typhoon Intensity Prediction with Vision Transformer [51.84456610977905]
台風強度を正確に予測するために「台風強度変換器(Tint)」を導入する。
Tintは、層ごとにグローバルな受容野を持つ自己認識機構を使用する。
公開されている台風ベンチマークの実験は、Tintの有効性を検証する。
論文 参考訳(メタデータ) (2023-11-28T03:11:33Z) - LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文 参考訳(メタデータ) (2023-05-05T07:53:13Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。