論文の概要: Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information
- arxiv url: http://arxiv.org/abs/2503.04470v1
- Date: Thu, 06 Mar 2025 14:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:23.260575
- Title: Gate-Shift-Pose: Enhancing Action Recognition in Sports with Skeleton Information
- Title(参考訳): Gate-Shift-Pose:スケルトン情報を用いたスポーツにおける行動認識の強化
- Authors: Edoardo Bianchi, Oswald Lanz,
- Abstract要約: Gate-Shift-Poseは、フィギュアスケートにおける選手の転倒分類のために、RGBフレームとともにスケルトンポーズデータを統合するように設計されている。
我々は、RGBフレームと入力段階でポーズキーポイントのガウス熱マップを組み合わせたアーリーフュージョンと、RGBとポーズ特徴を組み合わせたマルチストリームアーキテクチャを用いたレイトフュージョンの2つの融合戦略を評価する。
- 参考スコア(独自算出の注目度): 8.759884299087835
- License:
- Abstract: This paper introduces Gate-Shift-Pose, an enhanced version of Gate-Shift-Fuse networks, designed for athlete fall classification in figure skating by integrating skeleton pose data alongside RGB frames. We evaluate two fusion strategies: early-fusion, which combines RGB frames with Gaussian heatmaps of pose keypoints at the input stage, and late-fusion, which employs a multi-stream architecture with attention mechanisms to combine RGB and pose features. Experiments on the FR-FS dataset demonstrate that Gate-Shift-Pose significantly outperforms the RGB-only baseline, improving accuracy by up to 40% with ResNet18 and 20% with ResNet50. Early-fusion achieves the highest accuracy (98.08%) with ResNet50, leveraging the model's capacity for effective multimodal integration, while late-fusion is better suited for lighter backbones like ResNet18. These results highlight the potential of multimodal architectures for sports action recognition and the critical role of skeleton pose information in capturing complex motion patterns.
- Abstract(参考訳): 本稿では,RGBフレームと合わせて骨格ポーズデータを統合することで,フィギュアスケートにおける選手の転倒分類を目的としたGate-Shift-Fuseネットワークの強化版であるGate-Shift-Poseを紹介する。
我々は、RGBフレームと入力段階でポーズキーポイントのガウス熱マップを組み合わせたアーリーフュージョンと、RGBとポーズ特徴を組み合わせたマルチストリームアーキテクチャを用いたレイトフュージョンの2つの融合戦略を評価する。
FR-FSデータセットの実験では、Gate-Shift-PoseはRGBのみのベースラインよりも大幅に優れており、ResNet18では40%、ResNet50では20%の精度が向上している。
早期核融合はResNet50で最高精度(98.08%)を達成し、効率的なマルチモーダル統合のためにモデルの能力を活用する一方、後期核融合はResNet18のような軽量のバックボーンに適している。
これらの結果は,スポーツ行動認識におけるマルチモーダルアーキテクチャの可能性と,複雑な動きパターンを捉える上での骨格情報の重要性を浮き彫りにした。
関連論文リスト
- VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Skeleton Sequence and RGB Frame Based Multi-Modality Feature Fusion
Network for Action Recognition [19.86981250339247]
行動認識はコンピュータビジョンにおいて、視覚システムにおける幅広い応用のための熱い話題となっている。
以前のアプローチでは、骨格配列とRGBビデオのモダリティを融合することで改善されている。
骨格列とRGBフレームのモダリティを組み合わせたマルチモーダル特徴融合ネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-23T09:29:53Z) - Self-Supervised Modality-Aware Multiple Granularity Pre-Training for
RGB-Infrared Person Re-Identification [9.624510941236837]
Modality-Aware Multiple Granularity Learning (MMGL)は、ImageNetの事前学習に代わる自己教師付き事前学習である。
MMGLはImageNetの事前トレーニングよりも高速なトレーニング速度(数時間で収束)とデータ効率(5%のデータサイズ)で、より良い表現(+6.47% Rank-1)を学習する。
結果は、既存のさまざまなモデル、損失をうまく一般化し、データセット間で有望な転送可能性を持つことを示唆している。
論文 参考訳(メタデータ) (2021-12-12T04:40:33Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。