論文の概要: Is end-to-end learning enough for fitness activity recognition?
- arxiv url: http://arxiv.org/abs/2305.08191v1
- Date: Sun, 14 May 2023 16:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 17:06:42.585768
- Title: Is end-to-end learning enough for fitness activity recognition?
- Title(参考訳): エンドツーエンド学習はフィットネスアクティビティ認識に十分か?
- Authors: Antoine Mercier and Guillaume Berger and Sunny Panchal and Florian
Letsch and Cornelius Boehm and Nahua Kang and Ingo Bax and Roland Memisevic
- Abstract要約: エンドツーエンドの学習は、ポーズ推定に基づいて、最先端のアクション認識パイプラインと競合することを示す。
また、エンド・ツー・エンドの学習は、リアルタイム反復数などの時間的にきめ細かなタスクを支援できることを示す。
- 参考スコア(独自算出の注目度): 2.4273770300720012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end learning has taken hold of many computer vision tasks, in
particular, related to still images, with task-specific optimization yielding
very strong performance. Nevertheless, human-centric action recognition is
still largely dominated by hand-crafted pipelines, and only individual
components are replaced by neural networks that typically operate on individual
frames. As a testbed to study the relevance of such pipelines, we present a new
fully annotated video dataset of fitness activities. Any recognition
capabilities in this domain are almost exclusively a function of human poses
and their temporal dynamics, so pose-based solutions should perform well. We
show that, with this labelled data, end-to-end learning on raw pixels can
compete with state-of-the-art action recognition pipelines based on pose
estimation. We also show that end-to-end learning can support temporally
fine-grained tasks such as real-time repetition counting.
- Abstract(参考訳): エンド・ツー・エンド・ラーニングは、特に静止画像に関連する多くのコンピュータビジョンタスクをホールドしており、タスク固有の最適化は非常に高いパフォーマンスをもたらす。
それでも、人間中心のアクション認識は依然として手作りのパイプラインで占められており、個々のコンポーネントだけが、通常個々のフレームで動作するニューラルネットワークに置き換えられている。
このようなパイプラインの関連性を調べるためのテストベッドとして,フィットネス活動の完全注釈付きビデオデータセットを提案する。
この領域の認識能力は、基本的に人間のポーズとその時間的ダイナミクスの関数であるので、ポーズベースのソリューションはうまく機能すべきである。
このラベル付きデータにより、原画素でのエンドツーエンド学習が、ポーズ推定に基づく最先端のアクション認識パイプラインと競合することを示す。
また、エンド・ツー・エンドの学習は、リアルタイム反復数などの時間的にきめ細かなタスクを支援できることを示す。
関連論文リスト
- Towards Learning Discrete Representations via Self-Supervision for
Wearables-Based Human Activity Recognition [7.086647707011785]
ウェアラブルコンピューティングにおけるヒューマンアクティビティ認識(HAR)は、通常、センサーデータの直接処理に基づいている。
ウェアラブルアプリケーションへのベクトル量子化(VQ)の最近の進歩により、センサデータの短いスパンとベクトルのコードブックのマッピングを直接学習できるようになりました。
この研究は、離散表現がいかに効果的に導出できるかを示すための概念実証を示す。
論文 参考訳(メタデータ) (2023-06-01T19:49:43Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Muscle Vision: Real Time Keypoint Based Pose Classification of Physical
Exercises [52.77024349608834]
ビデオから外挿された3D人間のポーズ認識は、リアルタイムソフトウェアアプリケーションを可能にするまで進歩した。
本稿では,ライブビデオフィード上で人間のポーズ認識を行う新しい機械学習パイプラインとWebインターフェースを提案する。
論文 参考訳(メタデータ) (2022-03-23T00:55:07Z) - Human-like Relational Models for Activity Recognition in Video [8.87742125296885]
ディープニューラルネットワークによるビデオアクティビティ認識は多くのクラスにとって印象的だ。
ディープニューラルネットワークは、重要な関係を効果的に学習するのに苦労する。
本稿では,映像を時系列的に解釈する,より人間的な行動認識手法を提案する。
我々は,この手法を何かのデータセットの挑戦的なサブセットに適用し,挑戦的なアクティビティに基づくニューラルネットワークのベースラインに対するより堅牢なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-12T11:13:17Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Getting to 99% Accuracy in Interactive Segmentation [18.207714624149595]
最近のディープラーニングに基づくインタラクティブセグメンテーションアルゴリズムは、複雑な画像の処理に大きな進歩をもたらした。
しかし、この荒削りな選択が達成されれば、深層学習技術は台頭する傾向にある。
ユーザ・ワークフローをよりうまく活用するための新しいインタラクティブ・アーキテクチャと新しいトレーニング・スキームを提案する。
論文 参考訳(メタデータ) (2020-03-17T20:50:22Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。