論文の概要: Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution
- arxiv url: http://arxiv.org/abs/2111.02521v1
- Date: Wed, 3 Nov 2021 21:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 15:21:54.114547
- Title: Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution
- Title(参考訳): 高時間分解能動作同定のためのシーケンス・ツー・シーケンスモデリング
- Authors: Aakash Kaku, Kangning Liu, Avinash Parnandi, Haresh Rengaraj
Rajamohan, Kannan Venkataramanan, Anita Venkatesan, Audre Wirtanen, Natasha
Pandit, Heidi Schambra, Carlos Fernandez-Granda
- Abstract要約: 高時間分解能でラベル付けされた微妙な短時間動作を含む新しい行動認識ベンチマークを導入する。
セグメント化に基づく現在の最先端モデルでは,これらのデータに適用した場合,ノイズの予測が可能であることを示す。
本稿では,音声認識技術に触発された高精度な行動識別手法を提案する。
- 参考スコア(独自算出の注目度): 9.902223920743872
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic action identification from video and kinematic data is an important
machine learning problem with applications ranging from robotics to smart
health. Most existing works focus on identifying coarse actions such as
running, climbing, or cutting a vegetable, which have relatively long
durations. This is an important limitation for applications that require the
identification of subtle motions at high temporal resolution. For example, in
stroke recovery, quantifying rehabilitation dose requires differentiating
motions with sub-second durations. Our goal is to bridge this gap. To this end,
we introduce a large-scale, multimodal dataset, StrokeRehab, as a new
action-recognition benchmark that includes subtle short-duration actions
labeled at a high temporal resolution. These short-duration actions are called
functional primitives, and consist of reaches, transports, repositions,
stabilizations, and idles. The dataset consists of high-quality Inertial
Measurement Unit sensors and video data of 41 stroke-impaired patients
performing activities of daily living like feeding, brushing teeth, etc. We
show that current state-of-the-art models based on segmentation produce noisy
predictions when applied to these data, which often leads to overcounting of
actions. To address this, we propose a novel approach for high-resolution
action identification, inspired by speech-recognition techniques, which is
based on a sequence-to-sequence model that directly predicts the sequence of
actions. This approach outperforms current state-of-the-art methods on the
StrokeRehab dataset, as well as on the standard benchmark datasets 50Salads,
Breakfast, and Jigsaws.
- Abstract(参考訳): ビデオと運動データからのアクションの自動識別は、ロボット工学からスマートヘルスまで幅広い応用において重要な機械学習問題である。
現存する作品のほとんどは、比較的長い期間の野菜のランニング、クライミング、切断などの粗い行動を識別することに焦点を当てている。
これは高時間分解能での微妙な動きの識別を必要とするアプリケーションにとって重要な制限である。
例えば、脳卒中回復において、リハビリテーションを定量化するには、秒以下の時間で運動を区別する必要がある。
私たちの目標は、このギャップを埋めることです。
そこで本研究では,大規模マルチモーダルデータセットである strokerehab を,時間分解能の高い微妙な短デュレーション動作を含む新しい行動認識ベンチマークとして導入する。
これらの短いデュレーションアクションは関数プリミティブと呼ばれ、リーチ、トランスポート、再配置、安定化、アイドルで構成される。
このデータセットは、高品質な慣性測定ユニットセンサーと41人の脳卒中患者のビデオデータからなり、食事や歯磨きなどの日常生活活動を行う。
セグメンテーションに基づく現在の最先端モデルでは、これらのデータに適用するとノイズの予測が発生し、アクションのオーバーカウントに繋がることが多い。
そこで本研究では,アクションのシーケンスを直接予測するシーケンス・ツー・シーケンス・モデルに基づく音声認識技術にヒントを得た,高精度な行動識別手法を提案する。
このアプローチは、StrokeRehabデータセットの現在の最先端メソッド、および標準ベンチマークデータセットの50Salads、Breakfast、Jigsawよりも優れています。
関連論文リスト
- Finding the DeepDream for Time Series: Activation Maximization for Univariate Time Series [10.388704631887496]
逐次情報解析に最大活性化を適用する手法であるSequence Dreamingを紹介する。
モデル決定プロセスに最も影響を及ぼす時間的ダイナミクスとパターンを可視化する。
論文 参考訳(メタデータ) (2024-08-20T08:09:44Z) - Coherent Temporal Synthesis for Incremental Action Segmentation [42.46228728930902]
本稿では、インクリメンタルなアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。
本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現するテンポラリ・コヒーレント・アクション・モデルを提案する。
Breakfastデータセットの10タスクのインクリメンタルセットアップでは,ベースラインと比較して最大22%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-03-10T06:07:06Z) - Tapestry of Time and Actions: Modeling Human Activity Sequences using
Temporal Point Process Flows [9.571588145356277]
本稿では,アクティビティシーケンス中のアクションの連続的な分布をモデル化するフレームワークであるProActiveを提案する。
ProActiveは次のアクション予測、シーケンスゴール予測、エンドツーエンドシーケンス生成という3つの高影響問題に対処する。
論文 参考訳(メタデータ) (2023-07-13T19:17:54Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - ProActive: Self-Attentive Temporal Point Process Flows for Activity
Sequences [9.571588145356277]
ProActiveは、アクティビティシーケンス内のアクションの連続的な時間分布をモデル化するためのフレームワークである。
次のアクション予測、シーケンスゴール予測、エンドツーエンドシーケンス生成に対処する。
論文 参考訳(メタデータ) (2022-06-10T16:30:55Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。
JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-07-13T13:34:48Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。