論文の概要: Shifting Perspective to See Difference: A Novel Multi-View Method for
Skeleton based Action Recognition
- arxiv url: http://arxiv.org/abs/2209.02986v1
- Date: Wed, 7 Sep 2022 08:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:18:23.242405
- Title: Shifting Perspective to See Difference: A Novel Multi-View Method for
Skeleton based Action Recognition
- Title(参考訳): 異なる視点への転換:スケルトンに基づく行動認識のための新しいマルチビュー手法
- Authors: Ruijie Hou, Yanran Li, Ningyu Zhang, Yulin Zhou, Xiaosong Yang, Zhao
Wang
- Abstract要約: 骨格に基づく人間の行動認識は、その複雑なダイナミクスのために長年にわたる課題である。
本稿では,動的ビュー特徴の集合からアクションを認識する,概念的にシンプルで効果的なマルチビュー戦略を提案する。
私たちのモジュールは、既存のアクション分類モデルとシームレスに動作します。
- 参考スコア(独自算出の注目度): 22.004971546763162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based human action recognition is a longstanding challenge due to
its complex dynamics. Some fine-grain details of the dynamics play a vital role
in classification. The existing work largely focuses on designing incremental
neural networks with more complicated adjacent matrices to capture the details
of joints relationships. However, they still have difficulties distinguishing
actions that have broadly similar motion patterns but belong to different
categories. Interestingly, we found that the subtle differences in motion
patterns can be significantly amplified and become easy for audience to
distinct through specified view directions, where this property haven't been
fully explored before. Drastically different from previous work, we boost the
performance by proposing a conceptually simple yet effective Multi-view
strategy that recognizes actions from a collection of dynamic view features.
Specifically, we design a novel Skeleton-Anchor Proposal (SAP) module which
contains a Multi-head structure to learn a set of views. For feature learning
of different views, we introduce a novel Angle Representation to transform the
actions under different views and feed the transformations into the baseline
model. Our module can work seamlessly with the existing action classification
model. Incorporated with baseline models, our SAP module exhibits clear
performance gains on many challenging benchmarks. Moreover, comprehensive
experiments show that our model consistently beats down the state-of-the-art
and remains effective and robust especially when dealing with corrupted data.
Related code will be available on https://github.com/ideal-idea/SAP .
- Abstract(参考訳): スケルトンに基づく人間の行動認識は、その複雑なダイナミクスのために長年の課題である。
力学の細部の詳細は分類において重要な役割を担っている。
既存の研究は主に、関節関係の詳細を捉えるために、より複雑な隣接行列を持つインクリメンタルニューラルネットワークの設計に焦点を当てている。
しかし、それらは広く似た動きパターンを持つが、異なるカテゴリーに属する行動の区別が難しい。
興味深いことに、動きパターンの微妙な違いは著しく増幅され、この特性が十分に研究されていない特定の視点の方向を通して、観客が区別しやすくなることに気付きました。
従来の作業とは大きく異なり、動的ビューの特徴の集合からアクションを認識する概念的にシンプルで効果的なマルチビュー戦略を提案することにより、パフォーマンスを向上させる。
具体的には,一連のビューを学習するためのマルチヘッド構造を含む新しいスケルトン・アンカー・プロポーザル(sap)モジュールを設計する。
異なるビューに対する特徴学習のために,異なるビューの下でのアクションを変換し,ベースラインモデルに変換する新しい角度表現を導入する。
私たちのモジュールは、既存のアクション分類モデルとシームレスに連携できます。
ベースラインモデルと組み合わせたSAPモジュールは、多くの困難なベンチマークで明らかなパフォーマンス向上を示す。
さらに包括的実験により,本モデルは最先端のデータを一貫して打ち負かし,特に破損したデータを扱う場合においても有効かつ堅牢なままであることが示された。
関連コードはhttps://github.com/ideal-idea/SAP で入手できる。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Modular Networks Prevent Catastrophic Interference in Model-Based
Multi-Task Reinforcement Learning [0.8883733362171032]
モデルベースのマルチタスク強化学習が、共有ポリシネットワークからモデルフリーメソッドが行うのと同様の方法で、共有ダイナミクスモデルから恩恵を受けるかどうかを検討する。
単一ダイナミクスモデルを用いて、タスクの混乱と性能低下の明確な証拠を見出す。
対策として、学習力学モデルの内部構造を個別のサブネットワークにトレーニングすることで、パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-11-15T12:31:31Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。