論文の概要: Multi-Label Activity Recognition using Activity-specific Features and
Activity Correlations
- arxiv url: http://arxiv.org/abs/2009.07420v2
- Date: Thu, 4 Mar 2021 22:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:12:30.673442
- Title: Multi-Label Activity Recognition using Activity-specific Features and
Activity Correlations
- Title(参考訳): 活動特化特徴と活動相関を用いたマルチラベル活動認識
- Authors: Yanyi Zhang, Xinyu Li, Ivan Marsic
- Abstract要約: 本稿では,各アクティビティの独立な特徴記述子を抽出し,アクティビティ相関を学習するマルチラベルアクティビティ認識手法を提案する。
提案手法は,4つの多ラベル活動認識データセットにおける最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 15.356959177480965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label activity recognition is designed for recognizing multiple
activities that are performed simultaneously or sequentially in each video.
Most recent activity recognition networks focus on single-activities, that
assume only one activity in each video. These networks extract shared features
for all the activities, which are not designed for multi-label activities. We
introduce an approach to multi-label activity recognition that extracts
independent feature descriptors for each activity and learns activity
correlations. This structure can be trained end-to-end and plugged into any
existing network structures for video classification. Our method outperformed
state-of-the-art approaches on four multi-label activity recognition datasets.
To better understand the activity-specific features that the system generated,
we visualized these activity-specific features in the Charades dataset.
- Abstract(参考訳): マルチラベルアクティビティ認識は、各ビデオで同時または順次に実行される複数のアクティビティを認識するように設計されている。
最近のアクティビティ認識ネットワークは、各ビデオ内の1つのアクティビティのみを前提とする単一のアクティビティに焦点を当てている。
これらのネットワークは、マルチラベルアクティビティ用に設計されていないすべてのアクティビティの共有機能を抽出する。
本稿では,各アクティビティの独立な特徴記述子を抽出し,アクティビティ相関を学習するマルチラベルアクティビティ認識手法を提案する。
この構造はエンドツーエンドでトレーニングでき、ビデオ分類のために既存のネットワーク構造にプラグインすることができる。
提案手法は,4つのマルチラベルアクティビティ認識データセットにおける最先端手法よりも優れている。
システムが生成するアクティビティ特有の特徴をよりよく理解するために、これらのアクティビティ特有の機能をcharadesデータセットで視覚化しました。
関連論文リスト
- Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Query by Activity Video in the Wild [52.42177539947216]
現在のクェリ・バイ・アクティビティ・ビデオの文献では、埋め込みを学ぶ際に、すべてのアクティビティが十分なラベル付き例を持っているという仮定が一般的である。
本稿では,アクティビティ検索における不均衡なシナリオを明示的に扱う視覚意味埋め込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T10:26:36Z) - Automatic Interaction and Activity Recognition from Videos of Human
Manual Demonstrations with Application to Anomaly Detection [0.0]
本稿では、シーングラフを利用して、動きパターンとコンテキストを同時に処理しながら、画像シーケンスから重要な相互作用特徴を抽出する。
イベントベースの自動ビデオセグメンテーションとクラスタリングを導入し、同様のイベントをグループ化して、監視されたアクティビティが正しく実行されるかどうかを検出する。
論文 参考訳(メタデータ) (2023-04-19T16:15:23Z) - A Multi-Task Deep Learning Approach for Sensor-based Human Activity
Recognition and Segmentation [4.987833356397567]
本稿では,この2つの課題を同時に解くために,新しいディープニューラルネットワークを提案する。
提案するネットワークは,選択的畳み込みを採用し,長時間ないし短時間の動作を分割するマルチスケールウィンドウを備えている。
提案手法は,アクティビティ認識とセグメンテーションの両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:34:28Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Adversarial Background-Aware Loss for Weakly-supervised Temporal
Activity Localization [40.517438760096056]
近年,ビデオ内の時間的局所化活動が広く研究されている。
近年の進歩にもかかわらず、時間的活動の局所化を弱く制御する既存の手法は、ある活動が起こっていないことを認識するのに苦労している。
論文 参考訳(メタデータ) (2020-07-13T19:33:24Z) - Sequential Weakly Labeled Multi-Activity Localization and Recognition on
Wearable Sensors using Recurrent Attention Networks [13.64024154785943]
本稿では,逐次的にラベル付けされたマルチアクティビティ認識と位置情報タスクを処理するために,RAN(Recurrent attention network)を提案する。
我々のRANモデルは、粗粒度シーケンシャルな弱いラベルからマルチアクティビティータイプを同時に推測することができる。
手動ラベリングの負担を大幅に軽減する。
論文 参考訳(メタデータ) (2020-04-13T04:57:09Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。