論文の概要: SL-DML: Signal Level Deep Metric Learning for Multimodal One-Shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2004.11085v4
- Date: Mon, 19 Oct 2020 13:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:57:51.153862
- Title: SL-DML: Signal Level Deep Metric Learning for Multimodal One-Shot Action
Recognition
- Title(参考訳): SL-DML:マルチモーダルワンショット動作認識のための信号レベル深度学習
- Authors: Raphael Memmesheimer, Nick Theisen, Dietrich Paulus
- Abstract要約: 埋め込み空間における近接探索に対する行動認識問題を削減するための計量学習手法を提案する。
我々は信号を画像にエンコードし、深い残差CNNを用いて特徴を抽出する。
結果として得られるエンコーダは特徴を埋め込み空間に変換し、より近い距離は類似の動作を符号化し、高い距離は異なる動作を符号化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing an activity with a single reference sample using metric learning
approaches is a promising research field. The majority of few-shot methods
focus on object recognition or face-identification. We propose a metric
learning approach to reduce the action recognition problem to a nearest
neighbor search in embedding space. We encode signals into images and extract
features using a deep residual CNN. Using triplet loss, we learn a feature
embedding. The resulting encoder transforms features into an embedding space in
which closer distances encode similar actions while higher distances encode
different actions. Our approach is based on a signal level formulation and
remains flexible across a variety of modalities. It further outperforms the
baseline on the large scale NTU RGB+D 120 dataset for the One-Shot action
recognition protocol by 5.6%. With just 60% of the training data, our approach
still outperforms the baseline approach by 3.7%. With 40% of the training data,
our approach performs comparably well to the second follow up. Further, we show
that our approach generalizes well in experiments on the UTD-MHAD dataset for
inertial, skeleton and fused data and the Simitate dataset for motion capturing
data. Furthermore, our inter-joint and inter-sensor experiments suggest good
capabilities on previously unseen setups.
- Abstract(参考訳): メトリック学習アプローチを用いた単一の参照サンプルによるアクティビティの認識は、有望な研究分野である。
ほとんどはオブジェクト認識や顔認証に重点を置いている。
埋め込み空間における近接探索に対する行動認識問題を削減するための計量学習手法を提案する。
我々は信号を画像にエンコードし,深い残留cnnを用いて特徴抽出を行う。
三重項の損失を使って、機能の埋め込みを学びます。
その結果、エンコーダは特徴を埋め込み空間に変換し、近接距離が類似の作用を符号化し、高距離が異なる作用を符号化する。
我々のアプローチは信号レベルの定式化に基づいており、様々なモダリティに対して柔軟である。
さらに、ワンショットアクション認識プロトコルの大規模なNTU RGB+D 120データセットのベースラインを5.6%上回る。
トレーニングデータの60%だけで、私たちのアプローチはベースラインのアプローチを3.7%上回っています。
トレーニングデータの40%で、私たちのアプローチは2番目のフォローアップと同等に機能します。
さらに, 慣性, 骨格, 融合データのためのUTD-MHADデータセットと, モーションキャプチャデータのためのSimitateデータセットの実験において, 提案手法が十分に一般化されていることを示す。
さらに,共同およびセンサ間実験では,前回未確認のセットアップにおいて優れた性能が示唆された。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - ActiveAnno3D -- An Active Learning Framework for Multi-Modal 3D Object
Detection [15.885344033374393]
ラベル付けのためのデータサンプルを選択するためのアクティブラーニングフレームワークであるActiveAnno3Dを提案する。
我々は nuScenes と TUM Traffic Intersection データセット上で BEVFusion と PV-RCNN を用いて実験およびアブレーション研究を行った。
アクティブな学習フレームワークをproAnnoラベリングツールに統合し、AIによるデータ選択とラベリングを可能にします。
論文 参考訳(メタデータ) (2024-02-05T17:52:58Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - A Novel Multi-Stage Training Approach for Human Activity Recognition
from Multimodal Wearable Sensor Data Using Deep Neural Network [11.946078871080836]
ディープニューラルネットワークは、さまざまなウェアラブルセンサーのデータを利用して人間の行動を自動的に認識する効果的な選択である。
本論文では,この特徴抽出プロセスにおける多様性を高める,新たなマルチステージトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T20:48:56Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z) - Gimme Signals: Discriminative signal encoding for multimodal activity
recognition [0.0]
複数のセンサのモーダル性をサポートする簡易かつ効果的かつ柔軟な動作認識法を提案する。
本手法は, 骨格配列, 慣性およびモーションキャプチャ計測, および最大120種類の動作クラスを含む4つの動作認識データセットに適用する。
論文 参考訳(メタデータ) (2020-03-13T08:58:15Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。