論文の概要: A Multi-Task Learning Approach for Human Activity Segmentation and
Ergonomics Risk Assessment
- arxiv url: http://arxiv.org/abs/2008.03014v2
- Date: Wed, 2 Dec 2020 00:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:29:49.283807
- Title: A Multi-Task Learning Approach for Human Activity Segmentation and
Ergonomics Risk Assessment
- Title(参考訳): ヒューマンアクティビティセグメンテーションとエルゴノミクスリスク評価のためのマルチタスク学習アプローチ
- Authors: Behnoosh Parsa, Ashis G. Banerjee
- Abstract要約: 本稿では,グラフベースマルチタスクモデリングを用いた長ビデオにおけるヒューマンアクティビティ評価(HAE)の新たなアプローチを提案する。
提案手法をUW-IOMおよびTUM Kitchenデータセット上で評価した。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new approach to Human Activity Evaluation (HAE) in long videos
using graph-based multi-task modeling. Previous works in activity evaluation
either directly compute a metric using a detected skeleton or use the scene
information to regress the activity score. These approaches are insufficient
for accurate activity assessment since they only compute an average score over
a clip, and do not consider the correlation between the joints and body
dynamics. Moreover, they are highly scene-dependent which makes the
generalizability of these methods questionable. We propose a novel multi-task
framework for HAE that utilizes a Graph Convolutional Network backbone to embed
the interconnections between human joints in the features. In this framework,
we solve the Human Activity Segmentation (HAS) problem as an auxiliary task to
improve activity assessment. The HAS head is powered by an Encoder-Decoder
Temporal Convolutional Network to semantically segment long videos into
distinct activity classes, whereas, HAE uses a Long-Short-Term-Memory-based
architecture. We evaluate our method on the UW-IOM and TUM Kitchen datasets and
discuss the success and failure cases in these two datasets.
- Abstract(参考訳): 本稿では,グラフベースマルチタスクモデリングを用いた長ビデオにおけるヒューマンアクティビティ評価(HAE)の新しい手法を提案する。
これまでのアクティビティ評価では、検出されたスケルトンを使用してメトリックを直接計算するか、シーン情報を使用してアクティビティスコアを回帰する。
これらのアプローチは、クリップの平均スコアのみを計算し、関節と身体の動態の相関を考慮せず、正確な活動評価には不十分である。
さらに,これらの手法の一般化性に疑問を呈するシーン依存性が高い。
本稿では, グラフ畳み込みネットワークのバックボーンを用いて, 人間の関節間の相互接続を組み込むHAEのための新しいマルチタスクフレームワークを提案する。
本研究では,行動評価を改善するための補助課題として,ヒューマンアクティビティセグメンテーション(HAS)問題を解く。
HASヘッドはエンコーダ・デコーダ・テンポラル・コンボリューショナル・ネットワーク(英語版)を使用して、長いビデオを意味的に異なるアクティビティ・クラスに分割する。
本手法をUW-IOMとTUM Kitchenのデータセット上で評価し,この2つのデータセットの成功事例と失敗事例について考察する。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Body Segmentation Using Multi-task Learning [1.0832844764942349]
本稿では,3つのタスクを伴い,人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。
提案された--Pose--DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。
モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
論文 参考訳(メタデータ) (2022-12-13T13:06:21Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。