論文の概要: CGTGait: Collaborative Graph and Transformer for Gait Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.16623v1
- Date: Sat, 20 Sep 2025 10:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.891242
- Title: CGTGait: Collaborative Graph and Transformer for Gait Emotion Recognition
- Title(参考訳): CGTGait:歩行感情認識のための協調グラフと変換器
- Authors: Junjie Zhou, Haijun Xiong, Junhao Lu, Ziyu Lin, Bin Feng,
- Abstract要約: 骨格に基づく歩行感情認識は広範に応用されているため、大きな注目を集めている。
本稿では,グラフ畳み込みと変換器を協調的に統合するフレームワークである textbfCGTGait を提案する。
Emotion-Gait と ELMD の2つの広く使われているデータセットに対して,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 9.539530757201206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based gait emotion recognition has received significant attention due to its wide-ranging applications. However, existing methods primarily focus on extracting spatial and local temporal motion information, failing to capture long-range temporal representations. In this paper, we propose \textbf{CGTGait}, a novel framework that collaboratively integrates graph convolution and transformers to extract discriminative spatiotemporal features for gait emotion recognition. Specifically, CGTGait consists of multiple CGT blocks, where each block employs graph convolution to capture frame-level spatial topology and the transformer to model global temporal dependencies. Additionally, we introduce a Bidirectional Cross-Stream Fusion (BCSF) module to effectively aggregate posture and motion spatiotemporal features, facilitating the exchange of complementary information between the two streams. We evaluate our method on two widely used datasets, Emotion-Gait and ELMD, demonstrating that our CGTGait achieves state-of-the-art or at least competitive performance while reducing computational complexity by approximately \textbf{82.2\%} (only requiring 0.34G FLOPs) during testing. Code is available at \small{https://github.com/githubzjj1/CGTGait.}
- Abstract(参考訳): 骨格に基づく歩行感情認識は広範に応用されているため、大きな注目を集めている。
しかし、既存の手法は主に空間的・局所的な時間的情報抽出に重点を置いており、長距離の時間的表現を捉えていない。
本稿では,グラフ畳み込みと変圧器を協調的に統合し,歩行感情認識のための識別時空間的特徴を抽出する新しいフレームワークである「textbf{CGTGait}」を提案する。
具体的には、CGTGaitは複数のCGTブロックから構成され、各ブロックはグラフ畳み込みを用いてフレームレベルの空間トポロジをキャプチャし、変換器はグローバルな時間的依存をモデル化する。
さらに,両ストリーム間の相補的情報交換を容易にするために,姿勢と運動の時空間的特徴を効果的に集約する双方向クロスストリームフュージョン (BCSF) モジュールを導入する。
Emotion-Gait と ELMD という2つの広く使われているデータセットを用いて,CGTGait がテスト中の計算複雑性を約 0.34G FLOPs で減らしながら,最先端ないし少なくとも競争力のある性能を達成できることを実証した。
コードは \small{https://github.com/githubzj1/CGTGait で入手できる。
※
関連論文リスト
- Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition [10.048809585477555]
スケルトン対応手話認識は, 背景情報の影響を受けないままでいられるため, 人気が高まっている。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
本稿では,入力に敏感な連接関係を構築する2つの同時分岐からなる空間構造を提案する。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T07:42:57Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - GCsT: Graph Convolutional Skeleton Transformer for Action Recognition [10.49514906434189]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において有望な性能を達成する。
ほとんどのGCNベースの手法では、時空間グラフの畳み込みはグラフトポロジーによって厳密に制限される。
本稿では,新しいアーキテクチャであるGraph Convolutional skeleton Transformer (GCsT)を提案する。
論文 参考訳(メタデータ) (2021-09-07T04:32:10Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。