論文の概要: PoseRAC: Pose Saliency Transformer for Repetitive Action Counting
- arxiv url: http://arxiv.org/abs/2303.08450v2
- Date: Thu, 16 Mar 2023 01:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 11:22:31.310793
- Title: PoseRAC: Pose Saliency Transformer for Repetitive Action Counting
- Title(参考訳): PoseRAC: 繰り返しアクションカウントのためのPose Saliency Transformer
- Authors: Ziyu Yao, Xuxin Cheng, Yuexian Zou
- Abstract要約: 冗長なフレームではなく,2つのサレントポーズのみを用いて,各アクションを効率よく表現するPose Saliency Representationを導入する。
また,この表現に基づいて,最先端のパフォーマンスを実現するPoseRACについても紹介する。
当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。
- 参考スコア(独自算出の注目度): 56.34379680390869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a significant contribution to the field of repetitive
action counting through the introduction of a new approach called Pose Saliency
Representation. The proposed method efficiently represents each action using
only two salient poses instead of redundant frames, which significantly reduces
the computational cost while improving the performance. Moreover, we introduce
a pose-level method, PoseRAC, which is based on this representation and
achieves state-of-the-art performance on two new version datasets by using Pose
Saliency Annotation to annotate salient poses for training. Our lightweight
model is highly efficient, requiring only 20 minutes for training on a GPU, and
infers nearly 10x faster compared to previous methods. In addition, our
approach achieves a substantial improvement over the previous state-of-the-art
TransRAC, achieving an OBO metric of 0.56 compared to 0.29 of TransRAC. The
code and new dataset are available at https://github.com/MiracleDance/PoseRAC
for further research and experimentation, making our proposed approach highly
accessible to the research community.
- Abstract(参考訳): 本稿では,Pose Saliency Representationと呼ばれる新しいアプローチの導入を通じて,反復行動の分野への重要な貢献を示す。
提案手法は, 冗長なフレームではなく2つの姿勢のみを用いて効率よく各動作を表現し, 性能を向上しながら計算コストを大幅に削減する。
さらに,この表現に基づくポーズレベル手法であるponsracを導入することで,トレーニングに敬礼のポーズを注釈するためにponss saliencyアノテーションを用いて,2つの新バージョンデータセットで最先端のパフォーマンスを実現する。
当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。
さらに,従来のトランスRACの0.29に対してOBOの0.56を達成し,従来のトランスRACよりも大幅に改善した。
コードと新しいデータセットは、さらなる研究と実験のためにhttps://github.com/MiracleDance/PoseRACで公開されている。
関連論文リスト
- Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames [55.72994484532856]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
エンド・ツー・エンドトレーニングのメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文 参考訳(メタデータ) (2023-11-28T21:31:04Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - ParaFormer: Parallel Attention Transformer for Efficient Feature
Matching [8.552303361149612]
本稿ではParaFormerという新しい並列アテンションモデルを提案する。
振幅と位相という概念を通じて特徴とキーポイントの位置を融合させ、平行して自己と横断性を統合する。
ホモグラフィー推定、ポーズ推定、画像マッチングなど様々な応用実験により、ParaFormerが最先端の性能を達成することを示す。
効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-02T03:29:16Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeleton Split Strategies for Spatial Temporal Graph Convolution
Networks [2.132096006921048]
人体の骨格表現は、この作業に有効であることが証明されている。
骨格グラフ上で畳み込み操作を行うための新しい手法のセットを示す。
論文 参考訳(メタデータ) (2021-08-03T05:57:52Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。