論文の概要: Recovering Complete Actions for Cross-dataset Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2410.23641v1
- Date: Thu, 31 Oct 2024 05:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:54.830822
- Title: Recovering Complete Actions for Cross-dataset Skeleton Action Recognition
- Title(参考訳): クロスデータセットスケルトン行動認識のための完全動作の復元
- Authors: Hanchao Liu, Yujiang Li, Tai-Jiang Mu, Shi-Min Hu,
- Abstract要約: 本稿では,新しい完全動作に基づく復元・再サンプル拡張フレームワークを提案する。
完全なアクションを回復し、これらの全シーケンスから再サンプリングすることで、目に見えない領域に対して強力な拡張を生成することができる。
3つのスケルトン行動データセットを用いたクロスデータセット設定に対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 25.276593723734727
- License:
- Abstract: Despite huge progress in skeleton-based action recognition, its generalizability to different domains remains a challenging issue. In this paper, to solve the skeleton action generalization problem, we present a recover-and-resample augmentation framework based on a novel complete action prior. We observe that human daily actions are confronted with temporal mismatch across different datasets, as they are usually partial observations of their complete action sequences. By recovering complete actions and resampling from these full sequences, we can generate strong augmentations for unseen domains. At the same time, we discover the nature of general action completeness within large datasets, indicated by the per-frame diversity over time. This allows us to exploit two assets of transferable knowledge that can be shared across action samples and be helpful for action completion: boundary poses for determining the action start, and linear temporal transforms for capturing global action patterns. Therefore, we formulate the recovering stage as a two-step stochastic action completion with boundary pose-conditioned extrapolation followed by smooth linear transforms. Both the boundary poses and linear transforms can be efficiently learned from the whole dataset via clustering. We validate our approach on a cross-dataset setting with three skeleton action datasets, outperforming other domain generalization approaches by a considerable margin.
- Abstract(参考訳): 骨格に基づく行動認識の大幅な進歩にもかかわらず、異なる領域への一般化は依然として難しい問題である。
本稿では,骨格動作の一般化問題を解決するために,新しい完全動作に基づく復元・再サンプル拡張フレームワークを提案する。
人間の日常行動は、通常、その完全な行動シーケンスの部分的な観察であるため、異なるデータセット間で時間的ミスマッチに直面している。
完全なアクションを回復し、これらの全シーケンスから再サンプリングすることで、目に見えない領域に対して強力な拡張を生成することができる。
同時に、時間とともにフレームごとの多様性によって示される大きなデータセットの中で、一般的なアクション完全性の性質を発見する。
これにより、アクションサンプル間で共有できる2つの伝達可能な知識を活用でき、アクション完了に役立つ: アクション開始を決定する境界ポーズ、グローバルなアクションパターンをキャプチャするための線形時間変換。
そこで, 2段階の確率的動作完了を境界ポーズ条件外挿法で定式化し, 滑らかな線形変換を行った。
境界ポーズと線形変換は、クラスタリングを通じてデータセット全体から効率的に学習することができる。
3つのスケルトン・アクション・データセットを用いたクロスデータセット・セッティングによるアプローチの有効性を検証し,他の領域の一般化手法よりもかなり優れていることを示す。
関連論文リスト
- FCA-RAC: First Cycle Annotated Repetitive Action Counting [30.253568218869237]
我々は、FCA-RAC(First Cycle Annotated Repetitive Action Counting)と呼ばれるフレームワークを提案する。
FCA-RACは、(1)トレーニングビデオに、第1のアクションサイクルの開始と終了と、合計のアクションカウントとをアノテートするラベリング技術を含む。
この手法により、モデルが初期行動サイクルとその後の行動との相関を捉えることができる。
論文 参考訳(メタデータ) (2024-06-18T01:12:43Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning
for Real-world Scene Flow [6.155589434533128]
両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。
提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T04:56:10Z) - Navigating Open Set Scenarios for Skeleton-based Action Recognition [45.488649741347]
探索されていないオープンセット骨格に基づく行動認識(OS-SAR)課題に取り組む。
そこで本稿では, 骨格関節, 骨, 速度の相互アライメントを利用した距離に基づく相互モーダル法を提案する。
論文 参考訳(メタデータ) (2023-12-11T12:29:32Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。