論文の概要: Skeleton-DML: Deep Metric Learning for Skeleton-Based One-Shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2012.13823v2
- Date: Mon, 8 Mar 2021 14:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:12:59.949828
- Title: Skeleton-DML: Deep Metric Learning for Skeleton-Based One-Shot Action
Recognition
- Title(参考訳): Skeleton-DML:Skeleton-based One-Shot Action RecognitionのためのDeep Metric Learning
- Authors: Raphael Memmesheimer, Simon H\"aring, Nick Theisen, Dietrich Paulus
- Abstract要約: ワンショットアクション認識は、単一のトレーニング例だけで、人間のパフォーマンスアクションの認識を可能にする。
これは、ロボットが以前に見つからなかった行動に反応できるようにすることで、人間とロボットの相互作用に正の影響を与える。
本稿では,メートル法学習環境において良好に機能する新しい画像に基づく骨格表現を提案する。
- 参考スコア(独自算出の注目度): 0.5161531917413706
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One-shot action recognition allows the recognition of human-performed actions
with only a single training example. This can influence human-robot-interaction
positively by enabling the robot to react to previously unseen behaviour. We
formulate the one-shot action recognition problem as a deep metric learning
problem and propose a novel image-based skeleton representation that performs
well in a metric learning setting. Therefore, we train a model that projects
the image representations into an embedding space. In embedding space the
similar actions have a low euclidean distance while dissimilar actions have a
higher distance. The one-shot action recognition problem becomes a
nearest-neighbor search in a set of activity reference samples. We evaluate the
performance of our proposed representation against a variety of other
skeleton-based image representations. In addition, we present an ablation study
that shows the influence of different embedding vector sizes, losses and
augmentation. Our approach lifts the state-of-the-art by 3.3% for the one-shot
action recognition protocol on the NTU RGB+D 120 dataset under a comparable
training setup. With additional augmentation our result improved over 7.7%.
- Abstract(参考訳): ワンショットアクション認識は、単一のトレーニング例だけで、人間のパフォーマンスアクションの認識を可能にする。
これは、ロボットが以前に見つからなかった行動に反応できるようにすることで、人間とロボットの相互作用に正の影響を与える。
本稿では,一発動作認識問題を深度学習問題として定式化し,距離学習環境において優れた画像に基づく骨格表現を提案する。
そこで我々は,画像表現を埋め込み空間に投影するモデルを訓練する。
埋め込み空間において、類似作用はユークリッド距離が低く、類似作用は高い距離を持つ。
ワンショット動作認識問題は、一連のアクティビティ参照サンプルにおいて最寄りの探索となる。
提案手法は,様々なスケルトンに基づく画像表現に対して,提案手法の性能を評価する。
さらに, 埋め込みベクトルサイズ, 損失, 拡張の影響を示すアブレーション研究を行った。
提案手法は,NTU RGB+D 120データセット上のワンショットアクション認識プロトコルを,同等のトレーニング設定で3.3%向上させる。
追加で7.7%以上の改善が得られた。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - On the Benefits of 3D Pose and Tracking for Human Action Recognition [77.07134833715273]
動作認識のためのトラッキングと3Dポーズの利点を示す。
トラックレット上での3次元ポーズと文脈的外観を融合させることにより,ラグランジアン行動認識モデルを提案する。
提案手法は,AVA v2.2データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-03T17:59:49Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - AROS: Affordance Recognition with One-Shot Human Stances [0.0]
我々は、人間のポーズと3Dシーン間の相互作用を明示的に表現する1ショット学習アプローチであるAROSを提案する。
これまでに見つからなかったシーンの3Dメッシュを考慮すれば、インタラクションをサポートする余裕のある場所を予測し、それに対応する3D人体を生成することができます。
その結果,1ショットのアプローチは,データ集約ベースラインを最大80%向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-21T04:29:21Z) - Hierarchical Compositional Representations for Few-shot Action
Recognition [51.288829293306335]
本稿では,新しい階層型合成表現(HCR)学習手法を提案する。
複雑なアクションを、慎重に設計された階層的クラスタリングによって、いくつかのサブアクションに分割する。
また、輸送問題において、サブアクション表現の観点から、ビデオサンプル間の類似度を測定するために、アースモーバー距離(Earth Mover's Distance)を採用した。
論文 参考訳(メタデータ) (2022-08-19T16:16:59Z) - A Training Method For VideoPose3D With Ideology of Action Recognition [0.9949781365631559]
本研究は,行動認識に基づくビデオPose3Dのより高速で柔軟なトレーニング手法を示す。
アクション指向と一般的なポーズ推定の両方の問題を扱うことができる。
論文 参考訳(メタデータ) (2022-06-13T19:25:27Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning View-Disentangled Human Pose Representation by Contrastive
Cross-View Mutual Information Maximization [33.36330493757669]
本研究では2次元人間のポーズから、ポーズ依存とビュー依存因子を分離する新しい表現学習手法を提案する。
異なる視点から実行された同じポーズの相互情報を最大化する相互情報(CV-MIM)を用いてネットワークを訓練する。
CV-MIMは、シングルショットのクロスビュー設定において、競合する他の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-12-02T18:55:35Z) - View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose [36.384824115033304]
本研究では,3次元のポーズを明示的に予測することなく,2次元のボディジョイントキーポイントからコンパクトなビュー不変埋め込み空間を学習する手法を提案する。
実験の結果,異なるカメラビューで類似のポーズを検索すると,埋め込みモデルの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-10-23T17:58:35Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。