論文の概要: Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based
Action Recognition
- arxiv url: http://arxiv.org/abs/2303.10904v2
- Date: Tue, 21 Mar 2023 08:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 11:09:21.976618
- Title: Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based
Action Recognition
- Title(参考訳): 教師なしスケルトンに基づく行動認識のためのactionlet-dependent contrastive learning
- Authors: Lilang Lin, Jiahang Zhang, Jiaying Liu
- Abstract要約: 本稿では,ActCLR(Actionlet-Dependent Contrastive Learning Method)を提案する。
ヒト骨格の識別サブセットとして定義されるアクションレットは、より優れたアクションモデリングのために、効果的に運動領域を分解する。
異なるデータ変換がアクションレットおよび非アクションレット領域に適用され、独自の特性を維持しながら、より多くの多様性を導入する。
- 参考スコア(独自算出の注目度): 33.68311764817763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-supervised pretraining paradigm has achieved great success in
skeleton-based action recognition. However, these methods treat the motion and
static parts equally, and lack an adaptive design for different parts, which
has a negative impact on the accuracy of action recognition. To realize the
adaptive action modeling of both parts, we propose an Actionlet-Dependent
Contrastive Learning method (ActCLR). The actionlet, defined as the
discriminative subset of the human skeleton, effectively decomposes motion
regions for better action modeling. In detail, by contrasting with the static
anchor without motion, we extract the motion region of the skeleton data, which
serves as the actionlet, in an unsupervised manner. Then, centering on
actionlet, a motion-adaptive data transformation method is built. Different
data transformations are applied to actionlet and non-actionlet regions to
introduce more diversity while maintaining their own characteristics.
Meanwhile, we propose a semantic-aware feature pooling method to build feature
representations among motion and static regions in a distinguished manner.
Extensive experiments on NTU RGB+D and PKUMMD show that the proposed method
achieves remarkable action recognition performance. More visualization and
quantitative experiments demonstrate the effectiveness of our method. Our
project website is available at https://langlandslin.github.io/projects/ActCLR/
- Abstract(参考訳): 自己教師型事前訓練パラダイムは骨格に基づく行動認識において大きな成功を収めた。
しかし、これらの手法は動きと静的な部分を等しく扱い、異なる部分に対する適応設計が欠如しており、動作認識の精度に悪影響を及ぼす。
両部品の適応的動作モデリングを実現するために,actlet-dependent contrastive learning method (actclr)を提案する。
ヒト骨格の識別サブセットとして定義されるアクションレットは、より優れたアクションモデリングのために効果的に運動領域を分解する。
具体的には,動きのない静的アンカーとは対照的に,アクションレットとして機能するスケルトンデータの運動領域を教師なしで抽出する。
次に,アクションレットを中心に動き適応型データ変換法を構築する。
異なるデータ変換がアクションレットおよび非アクションレット領域に適用され、独自の特性を維持しながら、より多くの多様性を導入する。
一方,動作領域と静的領域間の特徴表現を区別的に構築する意味認識型特徴プーリング手法を提案する。
NTU RGB+D と PKUMMD の大規模実験により,提案手法が顕著な動作認識性能を実現することを示す。
さらに可視化と定量的実験を行い,本手法の有効性を示した。
私たちのプロジェクトwebサイトはhttps://langlandslin.github.io/projects/actclr/で閲覧できます。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Seeing in Flowing: Adapting CLIP for Action Recognition with Motion
Prompts Learning [14.292812802621707]
対照的な言語-画像事前学習(CLIP)は、最近「ゼロショット」トレーニングにおいて顕著な一般化を示している。
より効率的で汎用的な行動認識手法を実現するために,CLIPの適応について検討する。
提案手法は,既存の最先端の手法よりも「ファウショット」と「ゼロショット」の訓練に大きく差をつける。
論文 参考訳(メタデータ) (2023-08-09T09:33:45Z) - Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。
まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。
各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文 参考訳(メタデータ) (2023-05-25T04:19:14Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。