論文の概要: LAC: Latent Action Composition for Skeleton-based Action Segmentation
- arxiv url: http://arxiv.org/abs/2308.14500v3
- Date: Thu, 31 Aug 2023 12:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 11:30:56.462990
- Title: LAC: Latent Action Composition for Skeleton-based Action Segmentation
- Title(参考訳): LAC:スケルトンに基づくアクションセグメンテーションのための潜在アクション組成
- Authors: Di Yang, Yaohui Wang, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni,
Gianpiero Francesca, Francois Bremond
- Abstract要約: 骨格に基づくアクションセグメンテーションでは、トリミングされていないビデオの中で構成可能なアクションを認識する必要がある。
現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルでそれらを処理し、フレームワイズアクションを分類することでこの問題を分離している。
骨格をベースとしたアクションセグメンテーションのための合成構成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。
- 参考スコア(独自算出の注目度): 21.797658771678066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action segmentation requires recognizing composable actions in
untrimmed videos. Current approaches decouple this problem by first extracting
local visual features from skeleton sequences and then processing them by a
temporal model to classify frame-wise actions. However, their performances
remain limited as the visual features cannot sufficiently express composable
actions. In this context, we propose Latent Action Composition (LAC), a novel
self-supervised framework aiming at learning from synthesized composable
motions for skeleton-based action segmentation. LAC is composed of a novel
generation module towards synthesizing new sequences. Specifically, we design a
linear latent space in the generator to represent primitive motion. New
composed motions can be synthesized by simply performing arithmetic operations
on latent representations of multiple input skeleton sequences. LAC leverages
such synthesized sequences, which have large diversity and complexity, for
learning visual representations of skeletons in both sequence and frame spaces
via contrastive learning. The resulting visual encoder has a high expressive
power and can be effectively transferred onto action segmentation tasks by
end-to-end fine-tuning without the need for additional temporal models. We
conduct a study focusing on transfer-learning and we show that representations
learned from pre-trained LAC outperform the state-of-the-art by a large margin
on TSU, Charades, PKU-MMD datasets.
- Abstract(参考訳): スケルトンベースのアクションセグメンテーションは、未トリミングビデオにおける合成可能なアクションを認識する必要がある。
現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルで処理し、フレームワイズアクションを分類することでこの問題を分離している。
しかし、視覚機能は構成可能なアクションを十分に表現できないため、パフォーマンスは限られている。
本研究では,骨格をベースとしたアクションセグメンテーションのための合成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。
LACは新規な生成モジュールからなり、新しい配列を合成する。
具体的には、原始運動を表現するために発電機内の線形潜在空間を設計する。
複数入力スケルトンシーケンスの潜在表現を算術演算することで、新しい合成動作を合成することができる。
LACは、大きな多様性と複雑さを持つ合成配列を利用して、コントラスト学習を通じて、シーケンスとフレーム空間の両方における骨格の視覚的表現を学習する。
生成したビジュアルエンコーダは表現力が高く、追加の時間モデルを必要としないエンドツーエンドの微調整によりアクションセグメンテーションタスクに効果的に転送できる。
トランスファーラーニングに着目した研究を行い,前訓練されたlacから得られた表現が,津,チャレード,pku-mmdデータセットにおいて,最先端技術よりも大きなマージンを持つことを示した。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - Contrastive Learning from Spatio-Temporal Mixed Skeleton Sequences for
Self-Supervised Skeleton-Based Action Recognition [21.546894064451898]
通常の拡張に基づくコントラストペアを直接拡張すると、性能の面ではリターンが制限されることが示される。
我々は,現在のコントラスト学習アプローチを補完する時間的スケルトン混合強化(SkeleMix)を備えたコントラスト学習フレームワークであるSkeleMixCLRを提案する。
論文 参考訳(メタデータ) (2022-07-07T03:18:09Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Skeleton-Contrastive 3D Action Representation Learning [35.06361753065124]
本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,PKUデータセットとNTUデータセットのスケルトンデータからの自己教師付き学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-08T14:44:59Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z) - Skeleton Based Action Recognition using a Stacked Denoising Autoencoder
with Constraints of Privileged Information [5.67220249825603]
本稿では骨格再構築の観点から骨格表現を研究するための新しい手法を提案する。
特権情報に基づく学習の概念に基づいて,動作カテゴリと時間座標を重畳したデノナイジングオートエンコーダに統合する。
一時的ミスアライメントによる変動を軽減するため,新しい時間的登録法を提案する。
論文 参考訳(メタデータ) (2020-03-12T09:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。