Fugu-MT 論文翻訳(概要): Parsing is All You Need for Accurate Gait Recognition in the Wild

論文の概要: Parsing is All You Need for Accurate Gait Recognition in the Wild

arxiv url: http://arxiv.org/abs/2308.16739v1
Date: Thu, 31 Aug 2023 13:57:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 14:13:32.971790
Title: Parsing is All You Need for Accurate Gait Recognition in the Wild
Title（参考訳）: 自然界における正確な歩行認識に必要な構文解析
Authors: Jinkai Zheng, Xinchen Liu, Shuai Wang, Lihao Wang, Chenggang Yan, Wu Liu
Abstract要約: 本稿では,GPS(Gait Parsing Sequence)という新しい歩行表現を提案する。 GPSは、ビデオフレームから抽出された微細な人間のセグメンテーションのシーケンスなので、より高い情報エントロピーを持つ。また,ParsingGaitという,新しいパーシングに基づく歩行認識フレームワークを提案する。実験結果から,GPS表現による精度の向上とParsingGaitの優越性が示唆された。
参考スコア（独自算出の注目度）: 51.206166843375364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Binary silhouettes and keypoint-based skeletons have dominated human gait recognition studies for decades since they are easy to extract from video frames. Despite their success in gait recognition for in-the-lab environments, they usually fail in real-world scenarios due to their low information entropy for gait representations. To achieve accurate gait recognition in the wild, this paper presents a novel gait representation, named Gait Parsing Sequence (GPS). GPSs are sequences of fine-grained human segmentation, i.e., human parsing, extracted from video frames, so they have much higher information entropy to encode the shapes and dynamics of fine-grained human parts during walking. Moreover, to effectively explore the capability of the GPS representation, we propose a novel human parsing-based gait recognition framework, named ParsingGait. ParsingGait contains a Convolutional Neural Network (CNN)-based backbone and two light-weighted heads. The first head extracts global semantic features from GPSs, while the other one learns mutual information of part-level features through Graph Convolutional Networks to model the detailed dynamics of human walking. Furthermore, due to the lack of suitable datasets, we build the first parsing-based dataset for gait recognition in the wild, named Gait3D-Parsing, by extending the large-scale and challenging Gait3D dataset. Based on Gait3D-Parsing, we comprehensively evaluate our method and existing gait recognition methods. The experimental results show a significant improvement in accuracy brought by the GPS representation and the superiority of ParsingGait. The code and dataset are available at https://gait3d.github.io/gait3d-parsing-hp .
Abstract（参考訳）: 二分シルエットとキーポイントベースの骨格は、ビデオフレームから簡単に抽出できるため、数十年間、人間の歩行認識研究を支配してきた。ラボ内環境における歩行認識の成功にもかかわらず、通常は実際のシナリオでは歩行表現に対する情報エントロピーが低いため失敗する。本稿では,野生で正確な歩行認識を実現するために,GPS(Gait Parsing Sequence)という新しい歩行表現を提案する。 gpsは、ビデオフレームから抽出されたきめ細かい人間のセグメンテーション、すなわち人間の解析のシーケンスであるため、歩行中のきめ細かい人間の部分の形状やダイナミクスをエントロピーでエントロピーしている。さらに,GPS表現の能力を効果的に探求するために,ParsingGaitという新しい人間のパーシングに基づく歩行認識フレームワークを提案する。 ParsingGaitには、CNNベースのバックボーンと2つの軽量ヘッドが含まれている。最初のヘッドはGPSからグローバルな意味的特徴を抽出し、もう1つはグラフ畳み込みネットワークを通じて部分レベルの特徴の相互情報を学び、人間の歩行の詳細なダイナミクスをモデル化する。さらに,適切なデータセットの欠如により,大規模かつ課題の多いgait3dデータセットを拡張して,gait3d-parsingと呼ばれる,野生での歩行認識のための最初のパースベースデータセットを構築した。 Gait3D-Parsingに基づいて,提案手法と既存の歩行認識手法を総合的に評価する。実験結果から,GPS表現による精度の向上とParsingGaitの優越性が示唆された。コードとデータセットはhttps://gait3d.github.io/gait3d-parsing-hp で公開されている。

関連論文リスト

Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは知的ロボットにとって協調的な環境において不可欠です本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-07-01T13:55:57Z)
PSGait: Gait Recognition using Parsing Skeleton [11.899411968690185]
本研究では,野生における歩行の正確な認識を実現するために,Parsing Skeletonという新しい歩行表現を提案する。また,Parsing SkeletonsとSilhouettesを入力とする新しい歩行認識フレームワークPSGaitを提案する。以上の結果から,PSGaitは野生での歩行認識に軽量で効果的で,高度に一般化可能な表現を提供することが示された。
論文参考訳（メタデータ） (2025-03-15T08:38:47Z)
It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。 2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文参考訳（メタデータ） (2024-11-16T08:54:27Z)
Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文参考訳（メタデータ） (2024-06-19T08:22:32Z)
GaitContour: Efficient Gait Recognition based on a Contour-Pose Representation [38.39173742709181]
歩行認識は、外見情報ではなく歩行パターンに基づいて、被験者をしっかりと識別する約束を持っている。本研究では,身体形状と身体部分情報の両方をコンパクトに表現する,ポイントベースコントゥール・ポース表現を提案する。さらに、この斬新な表現を活用するために、GaitContourと呼ばれるローカル・グローバル・アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-11-27T17:06:25Z)
Distillation-guided Representation Learning for Unconstrained Gait Recognition [50.0533243584942]
本研究では,屋外シナリオにおける人間認証のためのGADER(GAit Detection and Recognition)フレームワークを提案する。 GADERは、歩行情報を含むフレームのみを使用する新しい歩行認識手法により識別的特徴を構築する。室内および屋外のデータセットに一貫した改善を示すため,複数の歩行ベースライン(SoTA)について評価を行った。
論文参考訳（メタデータ） (2023-07-27T01:53:57Z)
Integrating Human Parsing and Pose Network for Human Action Recognition [12.308394270240463]
動作認識のための新しいモダリティとして,人間の解析特徴マップを導入する。本稿では,行動認識のためのヒューマンパーシングとポースネットワーク(IPP-Net)の統合を提案する。 IPP-Netは、スケルトンと人間のパース機能マップの両方を活用する最初の方法である。
論文参考訳（メタデータ） (2023-07-16T07:58:29Z)
Towards a Deeper Understanding of Skeleton-based Gait Recognition [4.812321790984493]
近年、ほとんどの歩行認識法は、人のシルエットを使って歩行の特徴を抽出している。モデルに基づく手法はこれらの問題に悩まされず、身体関節の時間運動を表現することができる。本研究では,高次入力と残差ネットワークを組み合わせたグラフ畳み込みネットワーク(GCN)に基づくアプローチを提案する。
論文参考訳（メタデータ） (2022-04-16T18:23:37Z)
Vision-based Behavioral Recognition of Novelty Preference in Pigs [1.837722971703011]
研究データの行動スコアリングは、ドメイン固有のメトリクスを抽出するために重要であるが、人間の労働力を用いて膨大な量の情報を分析する能力にボトルネックがある。ディープラーニングは、このボトルネックを緩和するための重要な進歩として広く見なされている。我々は,手動スコアリングのプロセスを緩和するために,ディープラーニングを活用できる分野を1つ同定する。
論文参考訳（メタデータ） (2021-06-23T06:10:34Z)
GPRAR: Graph Convolutional Network based Pose Reconstruction and Action Recognition for Human Trajectory Prediction [1.2891210250935146]
既存の予測モデルは、観察がしばしば騒がしい現実世界の設定でエラーを起こしやすい。 GPRARは、人間の軌道予測のためのグラフ畳み込みネットワークベースのポーズ再構築とアクション認識です。 JAADおよびTITANデータセットのノイズ観測により,GPRARは予測精度を最大22%,50%向上させることを示した。
論文参考訳（メタデータ） (2021-03-25T20:12:14Z)
Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文参考訳（メタデータ） (2020-08-31T08:31:56Z)
GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。 GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。 GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文参考訳（メタデータ） (2020-03-29T07:22:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。