Fugu-MT 論文翻訳(概要): HiH: A Multi-modal Hierarchy in Hierarchy Network for Unconstrained Gait Recognition

論文の概要: HiH: A Multi-modal Hierarchy in Hierarchy Network for Unconstrained Gait Recognition

arxiv url: http://arxiv.org/abs/2311.11210v1
Date: Sun, 19 Nov 2023 03:25:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 06:59:11.662609
Title: HiH: A Multi-modal Hierarchy in Hierarchy Network for Unconstrained Gait Recognition
Title（参考訳）: hih:unconstrained gait認識のための階層ネットワークにおけるマルチモーダル階層
Authors: Lei Wang, Yinchi Ma, Peng Luan, Wei Yao, Congcong Li, Bo Liu
Abstract要約: 本稿では,階層型ネットワーク(HiH)におけるマルチモーダル階層(Hierarchy in Hierarchy Network)について述べる。 HiH は階層的なゲイト・デコンポザ・モジュールを用いてシルエットデータから一般的なゲイト・パターンの深度的およびモジュール内階層的な検証を行う主ブランチを特徴とする。 2次元関節配列に基づく補助枝は、歩行解析の空間的側面と時間的側面を豊かにする。
参考スコア（独自算出の注目度）: 9.61073611172277
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gait recognition has achieved promising advances in controlled settings, yet it significantly struggles in unconstrained environments due to challenges such as view changes, occlusions, and varying walking speeds. Additionally, efforts to fuse multiple modalities often face limited improvements because of cross-modality incompatibility, particularly in outdoor scenarios. To address these issues, we present a multi-modal Hierarchy in Hierarchy network (HiH) that integrates silhouette and pose sequences for robust gait recognition. HiH features a main branch that utilizes Hierarchical Gait Decomposer (HGD) modules for depth-wise and intra-module hierarchical examination of general gait patterns from silhouette data. This approach captures motion hierarchies from overall body dynamics to detailed limb movements, facilitating the representation of gait attributes across multiple spatial resolutions. Complementing this, an auxiliary branch, based on 2D joint sequences, enriches the spatial and temporal aspects of gait analysis. It employs a Deformable Spatial Enhancement (DSE) module for pose-guided spatial attention and a Deformable Temporal Alignment (DTA) module for aligning motion dynamics through learned temporal offsets. Extensive evaluations across diverse indoor and outdoor datasets demonstrate HiH's state-of-the-art performance, affirming a well-balanced trade-off between accuracy and efficiency.
Abstract（参考訳）: 歩行認識は、制御された環境において有望な進歩を遂げてきたが、視野の変化、咬合、歩行速度の変化といった課題により、訓練されていない環境では著しく困難である。加えて、複数のモダリティを融合させる努力は、特に屋外シナリオにおいて、クロスモダリティの非互換性のため、しばしば限られた改善に直面します。これらの問題に対処するために,階層ネットワーク (hih) において,ロバストな歩行認識のためにシルエットとポーズシーケンスを統合するマルチモーダル階層を提案する。 HiHは階層的ゲイト分解器(HGD)モジュールを用いてシルエットデータから一般的なゲイトパターンの深さ方向およびモジュール内階層的な検査を行う。このアプローチは、全身のダイナミクスから詳細な手足の動きまでの動き階層を捉え、複数の空間分解能にわたる歩行特性の表現を容易にする。これを補完する2次元関節配列に基づく補助枝は、歩行解析の空間的・時間的側面を豊かにする。ポーズ誘導型空間アテンションのための変形性空間拡張(DSE)モジュールと、学習された時間オフセットを通じて運動力学を整列させる変形性時間アライメント(DTA)モジュールを用いる。さまざまな屋内および屋外データセットにわたる広範囲な評価は、HiHの最先端のパフォーマンスを示し、正確性と効率のバランスの取れたトレードオフを確認している。

関連論文リスト

RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation [1.7508558850131373]
Vision-Language Navigation (VLN) は、シングルポイントパスフィンディングからより挑戦的なMulti-Goal VLNへと進化している。 RAGNavは意味論的推論と物理的構造の間のギャップを埋めるフレームワークである。
論文参考訳（メタデータ） (2026-03-04T05:31:33Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [14.176801586961286]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。 EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。 TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文参考訳（メタデータ） (2025-08-03T13:11:52Z)
DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文参考訳（メタデータ） (2025-07-28T08:42:00Z)
A Structure-aware and Motion-adaptive Framework for 3D Human Pose Estimation with Mamba [18.376143217023934]
空間的関節トポロジーを捉えるための構造認識・運動適応型フレームワークを提案する。上述のキーモジュールを通じて,本アルゴリズムは構造認識と動き適応型ポーズリフトを可能にする。
論文参考訳（メタデータ） (2025-07-26T07:59:52Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文参考訳（メタデータ） (2025-01-16T09:38:22Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。 2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文参考訳（メタデータ） (2024-11-16T08:54:27Z)
Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition [4.036669828958854]
本研究では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。空間グラフでは、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持する。本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
論文参考訳（メタデータ） (2024-09-26T15:28:25Z)
PointDGMamba: Domain Generalization of Point Cloud Classification via Generalized State Space Model [77.00221501105788]
ドメイン一般化(DG)は、最近、ポイントクラウド分類(PCC)モデルの、目に見えない領域への一般化性を改善するために研究されている。本稿では、DG PCCにおける状態空間モデル(SSM)の一般化可能性について研究する。本稿では,未知の領域に対して強い一般化性を持つ新しいフレームワークであるPointDGMambaを提案する。
論文参考訳（メタデータ） (2024-08-24T12:53:48Z)
Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文参考訳（メタデータ） (2024-04-03T10:25:45Z)
Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文参考訳（メタデータ） (2023-11-22T09:18:49Z)
Hierarchical Spatio-Temporal Representation Learning for Gait Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文参考訳（メタデータ） (2023-07-19T09:30:00Z)
DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。 DG-GCNとDG-TCNの2つのモジュールで構成される。 DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文参考訳（メタデータ） (2022-10-12T03:17:37Z)
Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文参考訳（メタデータ） (2022-09-26T01:36:22Z)
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。 LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文参考訳（メタデータ） (2022-01-17T09:46:59Z)
One for All: An End-to-End Compact Solution for Hand Gesture Recognition [8.321276216978637]
本稿では,手動ジェスチャー認識のための細粒度特徴注意ネットワーク(Fit-Hand)をエンド・ツー・エンドのコンパクトCNNフレームワークとして提案する。提案されたアーキテクチャのパイプラインは、FineFeatモジュールと拡張畳み込み層(Conv)の2つの主要なユニットで構成されています。 Fit-Handの有効性は、7つのベンチマークデータセット上の主観依存(SD)および主観独立(SI)検証セットアップを使用して評価される。
論文参考訳（メタデータ） (2021-05-15T05:10:47Z)
Self-Guided Adaptation: Progressive Representation Alignment for Domain Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文参考訳（メタデータ） (2020-03-19T13:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。