論文の概要: Language Supervised Training for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2208.05318v1
- Date: Wed, 10 Aug 2022 12:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:25:00.997593
- Title: Language Supervised Training for Skeleton-based Action Recognition
- Title(参考訳): 骨格に基づく行動認識のための言語指導訓練
- Authors: Wangmeng Xiang, Chao Li, Yuxuan Zhou, Biao Wang, Lei Zhang
- Abstract要約: 骨格に基づく行動認識のための言語指導訓練(LST)手法を提案する。
我々は,行動の身体部分の動きに関するテキスト記述を提供するための知識エンジンとして,大規模言語モデルを採用している。
LSTは、推論時に余分な計算コストを伴わずに、様々なベースラインモデルに対して顕著な改善を実現している。
- 参考スコア(独自算出の注目度): 15.931578986906189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition has drawn a lot of attention for its
computation efficiency and robustness to lighting conditions. Existing
skeleton-based action recognition methods are typically formulated as a one-hot
classification task without fully utilizing the semantic relations between
actions. For example, "make victory sign" and "thumb up" are two actions of
hand gestures, whose major difference lies in the movement of hands. This
information is agnostic from the categorical one-hot encoding of action classes
but could be unveiled in the language description of actions. Therefore,
utilizing action language descriptions in training could potentially benefit
representation learning. In this work, we propose a Language Supervised
Training (LST) approach for skeleton-based action recognition. More
specifically, we employ a large-scale language model as the knowledge engine to
provide text descriptions for body parts movements of actions, and propose a
multi-modal training scheme by utilizing the text encoder to generate feature
vectors for different body parts and supervise the skeleton encoder for action
representation learning. Experiments show that our proposed LST method achieves
noticeable improvements over various baseline models without extra computation
cost at inference. LST achieves new state-of-the-arts on popular skeleton-based
action recognition benchmarks, including NTU RGB+D, NTU RGB+D 120 and NW-UCLA.
The code can be found at https://github.com/MartinXM/LST.
- Abstract(参考訳): スケルトンベースのアクション認識は、その計算効率と照明条件に対する堅牢性に多くの注目を集めている。
既存の骨格に基づく行動認識法は、通常、アクション間の意味的関係を完全に活用することなく、ワンホット分類タスクとして定式化される。
例えば、"make victory sign" と "thumb up" は、手のジェスチャーの2つのアクションであり、その大きな違いは手の動きにある。
この情報はアクションクラスのカテゴリ別の1-hotエンコーディングとは無関係であるが、アクションの言語記述で明らかにすることができる。
したがって、トレーニングにおけるアクション言語記述の利用は、表現学習に役立つ可能性がある。
本研究では,骨格に基づく行動認識のための言語指導訓練(LST)手法を提案する。
具体的には,大規模言語モデルを知識エンジンとして採用し,動作の身体部分の動きのテキスト記述を提供するとともに,テキストエンコーダを用いて様々な身体部分の特徴ベクトルを生成し,動作表現学習のためのスケルトンエンコーダを監督するマルチモーダルトレーニング手法を提案する。
提案手法は,計算コストを増すことなく,様々なベースラインモデルに対して顕著に改善できることを示す。
LSTは、NTU RGB+D、NTU RGB+D 120、NW-UCLAなど、人気のあるスケルトンベースのアクション認識ベンチマークにおいて、新しい最先端技術を実現している。
コードはhttps://github.com/MartinXM/LSTにある。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-18T09:00:25Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z) - All About Knowledge Graphs for Actions [82.39684757372075]
ゼロショットと少数ショットのアクション認識に使用できる知識グラフ(KG)の理解を深める。
KGsの3つの異なる構成機構について検討した。
異なる実験装置に対する異なるKGの影響を広範囲に解析する。
論文 参考訳(メタデータ) (2020-08-28T01:44:01Z) - Augmented Skeleton Based Contrastive Action Learning with Momentum LSTM
for Unsupervised Action Recognition [16.22360992454675]
近年では3Dスケルトンデータによる行動認識が重要視されている。
本稿では,AS-CALという対照的な行動学習パラダイムを初めて提案する。
提案手法は,従来の手作り手法を10~50%の精度で改善する。
論文 参考訳(メタデータ) (2020-08-01T06:37:57Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。