論文の概要: SBF: An Effective Representation to Augment Skeleton for Video-based Human Action Recognition
- arxiv url: http://arxiv.org/abs/2604.03590v1
- Date: Sat, 04 Apr 2026 04:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.658776
- Title: SBF: An Effective Representation to Augment Skeleton for Video-based Human Action Recognition
- Title(参考訳): SBF:ビデオに基づく人間行動認識のための骨格強化のための効果的な表現法
- Authors: Zhuoxuan Peng, Yiyi Ding, Yang Lin, S. -H. Gary Chan,
- Abstract要約: 人間の行動認識(HAR)パイプラインにおける行動関連情報を表現し,骨格を増強する効果的なアプローチを提案する。
SBF(Scale-Body-Flow)と呼ばれるこの表現は、各関節のスケール(およびそのための深度情報)によって与えられるスケールマップボリューム、人体をアウトラインするボディマップ、ピクセルワイド光フロー値によって与えられる人間と物体の相互作用を示すフローマップの3つの異なる構成要素から構成される。
我々のパイプラインは、最先端のスケルトンのみのアプローチと比較して、非常に高いHAR精度と、類似したコンパクト性と効率を実現している。
- 参考スコア(独自算出の注目度): 15.551634621042679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern video-based human action recognition (HAR) approaches use 2D skeleton as the intermediate representation in their prediction pipelines. Despite overall encouraging results, these approaches still struggle in many common scenes, mainly because the skeleton does not capture critical action-related information pertaining to the depth of the joints, contour of the human body, and interaction between the human and objects. To address this, we propose an effective approach to augment skeleton with a representation capturing action-related information in the pipeline of HAR. The representation, termed Scale-Body-Flow (SBF), consists of three distinct components, namely a scale map volume given by the scale (and hence depth information) of each joint, a body map outlining the human subject, and a flow map indicating human-object interaction given by pixel-wise optical flow values. To predict SBF, we further present SFSNet, a novel segmentation network supervised by the skeleton and optical flow without extra annotation overhead beyond the existing skeleton extraction. Extensive experiments across different datasets demonstrate that our pipeline based on SBF and SFSNet achieves significantly higher HAR accuracy with similar compactness and efficiency as compared with the state-of-the-art skeleton-only approaches.
- Abstract(参考訳): 現代のビデオベースヒューマンアクション認識(HAR)アプローチの多くは、予測パイプラインの中間表現として2Dスケルトンを使用している。
全体としては奨励的な結果にもかかわらず、これらのアプローチは、主に骨格が関節の深さ、人体の輪郭、人間と物体の相互作用に関連する重要な行動関連情報を捉えていないため、多くの一般的な場面で依然として苦労している。
そこで本研究では,HARパイプライン内の行動関連情報を表現し,スケルトンを増強する効果的な手法を提案する。
SBF(Scale-Body-Flow)と呼ばれるこの表現は、各関節のスケール(およびそのための深度情報)によって与えられるスケールマップボリュームと、人間の対象をアウトラインするボディマップと、ピクセルワイド光フロー値によって与えられる人間と物体の相互作用を示すフローマップの3つの異なる構成要素から構成される。
SBFを予測するため,SFSNetは骨格と光流によって制御される新しいセグメンテーションネットワークであり,既存の骨格抽出を超える付加的なアノテーションのオーバーヘッドを伴わない。
異なるデータセットにわたる大規模な実験により、SBFとSFSNetに基づくパイプラインは、最先端のスケルトンのみのアプローチと比較して、非常に高いHAR精度を実現していることが示された。
関連論文リスト
- Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - View-Invariant Skeleton-based Action Recognition via Global-Local
Contrastive Learning [15.271862140292837]
骨格に基づく人間の行動認識のための手動動作ラベル付けを使わずに、新しいビュー不変表現学習手法を提案する。
我々は、異なる視点から抽出された表現間の相互情報を最大化することにより、ネットワークトレーニングにおいて同一人物に対して同時に取られたマルチビュースケルトンデータを活用する。
提案手法は,入力スケルトンデータのビュー差に頑健であり,教師なしスケルトンに基づく人体行動法の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-09-23T15:00:57Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z) - Attention-Driven Body Pose Encoding for Human Activity Recognition [0.0]
本稿では,人間の行動認識のための新しいアテンションベースボディポーズコーディングを提案する。
濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2020-09-29T22:17:17Z) - Unifying Graph Embedding Features with Graph Convolutional Networks for
Skeleton-based Action Recognition [18.001693718043292]
本稿では,人行動認識のためのグラフ畳み込みネットワークに15のグラフ埋め込み機能を組み込んだ新しいフレームワークを提案する。
我々のモデルは,NTU-RGB+D,Kineetics,SYSU-3Dという3つの大規模データセットで検証されている。
論文 参考訳(メタデータ) (2020-03-06T02:31:26Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。