論文の概要: Context-Aware Sequence Alignment using 4D Skeletal Augmentation
- arxiv url: http://arxiv.org/abs/2204.12223v1
- Date: Tue, 26 Apr 2022 10:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:29:56.765759
- Title: Context-Aware Sequence Alignment using 4D Skeletal Augmentation
- Title(参考訳): 4次元骨格拡張を用いた文脈認識シーケンスアライメント
- Authors: Taein Kwon, Bugra Tekin, Siyu Tang, Marc Pollefeys
- Abstract要約: コンピュータビジョン、ロボティクス、混合現実の多くの応用において、ビデオにおける人間の行動の微粒化の時間的アライメントが重要である。
本稿では,アクションのシーケンスを整列するコンテキスト認識型自己教師型学習アーキテクチャを提案する。
特に、CASAは、人間の行動の空間的・時間的文脈を組み込むために、自己注意と相互注意のメカニズムを採用している。
- 参考スコア(独自算出の注目度): 67.05537307224525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal alignment of fine-grained human actions in videos is important for
numerous applications in computer vision, robotics, and mixed reality.
State-of-the-art methods directly learn image-based embedding space by
leveraging powerful deep convolutional neural networks. While being
straightforward, their results are far from satisfactory, the aligned videos
exhibit severe temporal discontinuity without additional post-processing steps.
The recent advancements in human body and hand pose estimation in the wild
promise new ways of addressing the task of human action alignment in videos. In
this work, based on off-the-shelf human pose estimators, we propose a novel
context-aware self-supervised learning architecture to align sequences of
actions. We name it CASA. Specifically, CASA employs self-attention and
cross-attention mechanisms to incorporate the spatial and temporal context of
human actions, which can solve the temporal discontinuity problem. Moreover, we
introduce a self-supervised learning scheme that is empowered by novel 4D
augmentation techniques for 3D skeleton representations. We systematically
evaluate the key components of our method. Our experiments on three public
datasets demonstrate CASA significantly improves phase progress and Kendall's
Tau scores over the previous state-of-the-art methods.
- Abstract(参考訳): 映像におけるきめ細かい人間の行動の時間的アライメントは、コンピュータビジョン、ロボティクス、混合現実における多くの応用において重要である。
最先端の手法は強力な深層畳み込みニューラルネットワークを利用して画像に基づく埋め込み空間を直接学習する。
直感的ではあるが、彼らの結果は満足には程遠いが、アライメントされたビデオは、追加の処理ステップなしで時間的不連続を示す。
野生動物における人間の身体と手のポーズ推定の最近の進歩は、ビデオにおける人間のアクションアライメントの課題に対処する新しい方法を約束している。
本研究は,人間のポーズ推定者に基づいて,行動のシーケンスを整合させる新しい文脈認識型自己教師付き学習アーキテクチャを提案する。
これをCASAと呼ぶ。
具体的には、CASAは、人間の行動の空間的・時間的文脈を取り入れ、時間的不連続性問題を解決するために、自己注意と相互注意のメカニズムを採用している。
さらに, 3次元スケルトン表現のための新しい4次元拡張技術により, 自己教師付き学習方式を提案する。
提案手法の重要な要素を体系的に評価する。
3つの公開データセットに対する実験により、CASAは相の進行を著しく改善し、KendallのTauスコアは従来の最先端手法よりも向上した。
関連論文リスト
- Past Movements-Guided Motion Representation Learning for Human Motion Prediction [0.0]
動作表現の強化を目的とした自己教師型学習フレームワークを提案する。
フレームワークは、まず、過去のシーケンスの自己再構成を通じてネットワークを事前訓練し、過去の動きに基づく将来のシーケンスのガイド付き再構築を行う。
提案手法は,Human3.6,3DPW,AMASSデータセットの平均予測誤差を8.8%削減する。
論文 参考訳(メタデータ) (2024-08-04T17:00:37Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - A Kinematic Bottleneck Approach For Pose Regression of Flexible Surgical
Instruments directly from Images [17.32860829016479]
ロボットから提供される運動情報のみをトレーニング時に活用し、自己監督画像に基づく手法を提案する。
時間を要する手動アノテーションの導入を避けるため、問題は自動エンコーダとして定式化される。
本手法の検証は, 柔軟ロボット内視鏡を用いて, 半合成, 幻, および生体内データセットを用いて行った。
論文 参考訳(メタデータ) (2021-02-28T18:41:18Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z) - Following Instructions by Imagining and Reaching Visual Goals [8.19944635961041]
本研究では,空間的推論を用いて時間的に拡張されたタスクを学習するための新しいフレームワークを提案する。
本フレームワークは生の画素画像上で動作し,事前の言語的知識や知覚的知識を前提とせず,本質的なモチベーションを通じて学習する。
シミュレーションによる対話型3D環境において,ロボットアームを用いた2つの環境で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-01-25T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。