論文の概要: HAA4D: Few-Shot Human Atomic Action Recognition via 3D Spatio-Temporal
Skeletal Alignment
- arxiv url: http://arxiv.org/abs/2202.07308v1
- Date: Tue, 15 Feb 2022 10:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 22:36:51.133074
- Title: HAA4D: Few-Shot Human Atomic Action Recognition via 3D Spatio-Temporal
Skeletal Alignment
- Title(参考訳): HAA4D:3次元時空間骨格アライメントによる人体原子行動認識
- Authors: Mu-Ruei Tseng, Abhishek Gupta, Chi-Keung Tang, Yu-Wing Tai
- Abstract要約: 本稿では,300以上の原子行動クラスに3,300本以上のビデオからなる新しい4D HAA4Dデータセットを提案する。
アトミックアクションの選択は、各ビデオクリップがわずか数秒しか続かないため、アノテーションをより簡単にする。
HAA4Dのすべての3D骨格のトレーニングとテストは、同じグローバル空間に深いアライメントモデルを使用して、グローバルにアライメントされている。
- 参考スコア(独自算出の注目度): 62.77491613638775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human actions involve complex pose variations and their 2D projections can be
highly ambiguous. Thus 3D spatio-temporal or 4D (i.e., 3D+T) human skeletons,
which are photometric and viewpoint invariant, are an excellent alternative to
2D+T skeletons/pixels to improve action recognition accuracy. This paper
proposes a new 4D dataset HAA4D which consists of more than 3,300 RGB videos in
300 human atomic action classes. HAA4D is clean, diverse, class-balanced where
each class is viewpoint-balanced with the use of 4D skeletons, in which as few
as one 4D skeleton per class is sufficient for training a deep recognition
model. Further, the choice of atomic actions makes annotation even easier,
because each video clip lasts for only a few seconds. All training and testing
3D skeletons in HAA4D are globally aligned, using a deep alignment model to the
same global space, making each skeleton face the negative z-direction. Such
alignment makes matching skeletons more stable by reducing intraclass
variations and thus with fewer training samples per class needed for action
recognition. Given the high diversity and skeletal alignment in HAA4D, we
construct the first baseline few-shot 4D human atomic action recognition
network without bells and whistles, which produces comparable or higher
performance than relevant state-of-the-art techniques relying on embedded space
encoding without explicit skeletal alignment, using the same small number of
training samples of unseen classes.
- Abstract(参考訳): 人間の行動には複雑なポーズのバリエーションがあり、2Dプロジェクションは非常に曖昧である。
したがって、3d時空間または4d(すなわち3d+t)のヒト骨格は、測光および視点不変であり、2d+t骨格/画素の優れた代替であり、行動認識精度を向上させる。
本稿では,300以上の原子行動クラスに3300以上のRGBビデオからなる新しい4DデータセットHAA4Dを提案する。
HAA4Dはクリーンで多様なクラスバランスを持ち、各クラスは4Dスケルトンを使用し、クラスごとに1つの4Dスケルトンしか深層認識モデルのトレーニングに十分ではない。
さらに、アトミックアクションの選択は、各ビデオクリップがわずか数秒しか続かないため、アノテーションをより簡単にする。
HAA4Dの全ての3D骨格の訓練と試験は、同じグローバル空間に深いアライメントモデルを用いて、全世界的に整列されており、各骨格は負のz方向に直面している。
このようなアライメントにより、クラス内変異を減らし、アクション認識に必要なクラス毎のトレーニングサンプルを少なくすることで、マッチングスケルトンがより安定する。
HAA4Dにおける高多様性と骨格アライメントを前提として、ベルやホイッスルを使わずに最初のベースラインの4D人間の原子行動認識ネットワークを構築し、無数のトレーニングサンプルを用いて、明示的な骨格アライメントを伴わずに埋め込み空間エンコーディングに依存した最先端技術と同等または高い性能を生み出す。
関連論文リスト
- Segment Any 4D Gaussians [69.53172192552508]
我々は,4次元ガウスアン(SA4D)をベースとした4次元デジタル世界において,任意の4次元ガウスアン(SA4D)をセグメンテーションすることを提案する。
SA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。
論文 参考訳(メタデータ) (2024-07-05T13:44:15Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z) - Invariant Training 2D-3D Joint Hard Samples for Few-Shot Point Cloud
Recognition [108.07591240357306]
我々は,従来の3次元モデルとよく訓練された2次元モデルとの合同予測を用いて,少数の3次元物体の雲認識におけるデータ不足問題に取り組む。
異なるラベルに対して高い信頼性の予測を行う'結合型ハードサンプル'のトレーニングは、クラックがより効果的でないことが分かりました。
InvJointと呼ばれる提案した不変トレーニング戦略は、ハードサンプルに重点を置いているだけでなく、矛盾する2Dと3Dの不明瞭な予測の相違も求めている。
論文 参考訳(メタデータ) (2023-08-18T17:43:12Z) - Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from
Sparse Image Ensemble [72.3681707384754]
Hi-LASSIEは、ユーザーが定義した形状やスケルトンテンプレートを使わずに、野生の20~30のオンライン画像から3Dで再現する。
まず,手動でアノテートした3Dスケルトンに頼る代わりに,選択した基準画像からクラス固有のスケルトンを自動的に推定する。
第二に、各インスタンスに忠実に適合する新しいインスタンス固有の最適化戦略により、形状再構成を改善する。
論文 参考訳(メタデータ) (2022-12-21T14:31:33Z) - Optimising 2D Pose Representation: Improve Accuracy, Stability and
Generalisability Within Unsupervised 2D-3D Human Pose Estimation [7.294965109944706]
2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はない。
その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。
論文 参考訳(メタデータ) (2022-09-01T17:32:52Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - PoseNet3D: Learning Temporally Consistent 3D Human Pose via Knowledge
Distillation [6.023152721616894]
PoseNet3Dは入力として2D関節を取り、3DスケルトンとSMPLボディモデルパラメータを出力する。
まず,3Dスケルトンを出力する教師ネットワークをトレーニングし,その知識をSMPL表現で3Dスケルトンを予測する学生ネットワークに抽出する。
3次元ポーズ推定のためのHuman3.6Mデータセットの結果,従来の教師なし手法と比較して3次元関節予測誤差が18%減少することが示された。
論文 参考訳(メタデータ) (2020-03-07T00:10:59Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。