論文の概要: ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers
- arxiv url: http://arxiv.org/abs/2202.11423v1
- Date: Wed, 23 Feb 2022 11:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:43:32.386584
- Title: ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers
- Title(参考訳): proformer: プロトタイプに基づく特徴拡張と視覚トランスフォーマーによる身体運動の効率的なデータ表現
- Authors: Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer
Stiefelhagen
- Abstract要約: 身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
- 参考スコア(独自算出の注目度): 31.908276711898548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically understanding human behaviour allows household robots to
identify the most critical needs and plan how to assist the human according to
the current situation. However, the majority of such methods are developed
under the assumption that a large amount of labelled training examples is
available for all concepts-of-interest. Robots, on the other hand, operate in
constantly changing unstructured environments, and need to adapt to novel
action categories from very few samples. Methods for data-efficient recognition
from body poses increasingly leverage skeleton sequences structured as
image-like arrays and then used as input to convolutional neural networks. We
look at this paradigm from the perspective of transformer networks, for the
first time exploring visual transformers as data-efficient encoders of skeleton
movement. In our pipeline, body pose sequences cast as image-like
representations are converted into patch embeddings and then passed to a visual
transformer backbone optimized with deep metric learning. Inspired by recent
success of feature enhancement methods in semi-supervised learning, we further
introduce ProFormer -- an improved training strategy which uses soft-attention
applied on iteratively estimated action category prototypes used to augment the
embeddings and compute an auxiliary consistency loss. Extensive experiments
consistently demonstrate the effectiveness of our approach for one-shot
recognition from body poses, achieving state-of-the-art results on multiple
datasets and surpassing the best published approach on the challenging NTU-120
one-shot benchmark by 1.84%. Our code will be made publicly available at
https://github.com/KPeng9510/ProFormer.
- Abstract(参考訳): 人間の行動を自動的に理解することで、家庭のロボットは最も重要なニーズを特定し、現在の状況に応じて人間を助ける方法を計画できる。
しかし、そのような手法の大多数は、多くのラベル付きトレーニング例が興味あるすべての概念に利用できるという前提のもとに開発されている。
一方ロボットは、絶えず変化する非構造環境の中で動作し、ごく少数のサンプルから新しいアクションカテゴリに適応する必要がある。
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用し、畳み込みニューラルネットワークの入力として使われるようになった。
我々は、このパラダイムをトランスフォーマーネットワークの観点から捉え、初めて視覚トランスフォーマーをスケルトン運動のデータ効率の高いエンコーダとして探究した。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
半教師付き学習における機能強化手法の最近の成功に触発されて、さらにproformer -- 埋め込みの強化と補助一貫性損失の計算に使用される反復的に推定されたアクションカテゴリプロトタイプに適用されたソフトアテンションを使用する、改良されたトレーニング戦略を紹介します。
広範囲にわたる実験は、ボディポーズからのワンショット認識に対する我々のアプローチの有効性を一貫して示し、複数のデータセットで最先端の結果を達成し、挑戦的なNTU-120ワンショットベンチマークにおける最も優れたアプローチを1.84%上回った。
私たちのコードはhttps://github.com/KPeng9510/ProFormer.comで公開されます。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Data Augmentation and Transfer Learning Approaches Applied to Facial
Expressions Recognition [0.3481985817302898]
本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。
我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。
拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
論文 参考訳(メタデータ) (2024-02-15T14:46:03Z) - MENTOR: Human Perception-Guided Pretraining for Increased Generalization [5.596752018167751]
MENTOR (huMan pErceptioN-guided preTraining fOr increased geneRalization) を紹介する。
我々は、クラスラベルを使わずに、入力された画像からヒトの唾液マップを学習するためにオートエンコーダを訓練する。
我々は、デコーダ部分を取り除き、エンコーダの上に分類層を追加し、従来の新しいモデルを微調整する。
論文 参考訳(メタデータ) (2023-10-30T13:50:44Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Self-Supervised Human Activity Recognition by Augmenting Generative
Adversarial Networks [0.0]
本稿では,自己教師型タスクによるGAN(Generative Adversarial Network)の拡張手法を提案する。
提案手法では,入力ビデオフレームは異なる空間変換によってランダムに変換される。
判別器は、補助損失を導入することにより、適用された変換を予測することを奨励される。
論文 参考訳(メタデータ) (2020-08-26T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。